机器学习
机器学习学习历程
Self-Discipline
在校大学生
展开
-
[译] 理解 LSTM 网络
Hi,我是 朱小虎 Neil,University AI 创始人 & Chief Scientist,致力于推进世界人工智能化进程。制定并实施 UAI 中长期增长战略和目标,带领团队快速成长为人工智能领域最专业的力量。我在2014年创建了TASA(中国最早的人工智能社团), DL Center(深度学习知识中心全球价值网络),AI growth(行业智库培训)等,为中国的人工智能...转载 2019-02-25 20:57:44 · 374 阅读 · 0 评论 -
神经网络基础与人工神经网络
神经网络基础与人工神经网络神经网络方面的研究很早就已出现,今天“神经网络”已是一个相当大的、多学科交叉的学科领域。神经网络中最基本的成分是神经元模型。上图中每个圆圈都是一个神经元,每条线表示神经元之间的连接。我们可以看到,上面的神经元被分成了多层,层与层之间的神经元有连接,而层内之间的神经元没有连接。感知器为了理解神经网络,我们应该先理解神经网络的组成单元——神经元。神经元也叫...转载 2019-02-25 20:36:40 · 793 阅读 · 0 评论 -
循环神经网络(RNN)原理通俗解释
1.RNN怎么来的?2.RNN的网络结构及原理3.RNN的改进1:双向RNN4.RNN的改进2:深层双向RNN4.1 Pyramidal RNN5.RNN的训练-BPTT6.RNN与CNN的结合应用:看图说话7.RNN项目练手1.RNN怎么来的?循环神经网络的应用场景比较多,比如暂时能写论文,写程序,写诗,但是,(总是会有但是的),但是他们现在还不能正常使用,学习出来的东西没...转载 2019-02-25 20:29:02 · 433 阅读 · 0 评论 -
轻松看懂机器学习十大常用算法
通过本篇文章可以对ML的常用算法有个常识性的认识,没有代码,没有复杂的理论推导,就是图解一下,知道这些算法是什么,它们是怎么应用的,例子主要是分类问题。每个算法都看了好几个视频,挑出讲的最清晰明了有趣的,便于科普。以后有时间再对单个算法做深入地解析。今天的算法如下:决策树随机森林算法 逻辑回归 SVM 朴素贝叶斯 K最近邻算法 K均值算法 Adaboost 算法...转载 2019-02-23 21:21:57 · 205 阅读 · 0 评论 -
无监督学习之K-means算法
1 什么是无监督学习 没有目标值 - 无监督学习2 无监督学习包含算法 聚类:K-means(K均值聚类) 降维:PCA3 K-means原理4 案例:k-means对Instacart Market用户聚类 k = 3 流程分析: 降维之后的数据 1)预估器流程 2)看结果 3)模型评估5 Kmeans性能评估...原创 2019-01-23 16:00:00 · 315 阅读 · 1 评论 -
模型保存和加载
我们可以将训练后的模型保存下来,下次直接导出就行了,节省了时间。代码:from sklearn.datasets import load_bostonfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn.line...原创 2019-01-23 15:19:56 · 729 阅读 · 0 评论 -
逻辑回归与二分类
1 逻辑回归的应用场景 广告点击率 是否会被点击 是否为垃圾邮件 是否患病 是否为金融诈骗 是否为虚假账号 正例 / 反例2 逻辑回归的原理 线型回归的输出 就是 逻辑回归 的 输入 激活函数 sigmoid函数 [0, 1] 1/(1 + e^(-x)) 假设函数/线性模型 ...原创 2019-01-23 15:07:05 · 947 阅读 · 0 评论 -
岭回归
岭回归即为带有L2正则化的线性回归,lambd(λ)为正则化力度=惩罚项系数。 代码:from sklearn.datasets import load_bostonfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom ...原创 2019-01-22 21:49:35 · 1139 阅读 · 0 评论 -
欠拟合与过拟合
1 欠拟合 表现:预测结果不准确 原因:学习到数据的特征过少 解决:增加数据的特征数量2 过拟合 表现:训练集上表现得好,测试集上不好 原因:原始特征过多,存在一些嘈杂特征,模型过于复杂是因为模型尝试去兼顾各个测试数据点 解决: 正则化 L1 损失函数 + λ惩罚项 ...原创 2019-01-22 21:15:52 · 150 阅读 · 0 评论 -
线性回归
1 回归问题:目标值 - 连续型的数据2 线性回归的原理 什么是线性回归 1)函数关系 特征值和目标值 2)线型模型 线性关系 y = w1x1 + w2x2 + w3x3 + …… + wnxn + b = wTx + b 广义线性模型 非线性关系? 线性模型 1)自变量...原创 2019-01-22 21:08:41 · 237 阅读 · 0 评论 -
随机森林
随机森林是一个包含多个决策树的分类器,是一种集成学习方法(三个臭皮匠赛过诸葛亮)。1 随机森林原理过程训练集:N个样本特征值 目标值M个特征随机 两个随机 训练集随机 - N个样本中随机有放回的抽样N个 bootstrap 随机有放回抽样 [1, 2, 3, 4, 5] 新的树的训练集 ...原创 2019-01-22 20:38:15 · 1569 阅读 · 0 评论 -
决策树
1 认识决策树 如何高效的进行决策? 特征的先后顺序(哪个特征先看,哪个特征后看)2 决策树分类原理详解(看哪个特征能筛掉更多的数据,尽可能通过少的决策,达到目的) 已知 四个特征值 预测 是否贷款给某个人 先看房子,再工作 -> 是否贷款 只看了两个特征 年龄,信贷情况,工作 看了三个特征信息论基础 1)信息 香农:消除随...原创 2019-01-22 20:33:03 · 201 阅读 · 0 评论 -
朴素贝叶斯算法
1 概率基础 联合概率、条件概率与相互独立定义 联合概率:包含多个条件,且所有条件同时成立的概率 P(程序员, 匀称) P(程序员, 超重|喜欢) P(A, B) 条件概率:就是事件A在另外一个事件B已经发生条件下的发生概率 P(程序员|喜欢) P(程序员, 超重|喜欢) P(A|B) 相互独立:P(A, B) = P(A)P(B) ...原创 2019-01-22 20:06:47 · 455 阅读 · 0 评论 -
KNN算法
KNN算法即K-近邻算法,KNN的核心思想是通过你的“邻居”来推断出你的类别。1 K-近邻算法(KNN)原理 k 值取得过小,容易受到异常点的影响 k 值取得过大,样本不均衡的影响 确定邻居的方法(计算距离) 1)欧氏距离 2)曼哈顿距离(绝对值距离) 3)明可夫斯基距离(欧氏距离和曼哈顿距离的推广)2 案例1:鸢尾花种类预测 1)获取数...原创 2019-01-22 19:37:44 · 277 阅读 · 1 评论 -
sklearn转换器和估计器
1 转换器 - 特征工程的父类实例化 (实例化的是一个转换器类(Transformer))调用fit_transform(对于文档建立分类词频矩阵,不能同时调用)标准化: (x - mean) / std fit_transform() fit() 计算 每一列的平均值、标准差 transform() (x - me...原创 2019-01-22 17:25:09 · 1215 阅读 · 0 评论 -
特征工程
特征工程是将数据(特征)处理,使得特征在机器学习上发挥更好的作用的方法。特征抽取/特征提取:(文本类型 -> 数值 类型 -> 数值)机器学习算法 - 统计方法 - 数学公式pandas(库)主要用于数据清洗、数据处理特征工程主要使用的是sklearn(库)1.特征提取1.1字典特征提取 - 类别 -> one-hot编码(sparse矩阵)skl...原创 2019-01-22 17:13:50 · 175 阅读 · 0 评论 -
数据集的使用
1.学习阶段可以用的数据集: 1)sklearn 2)kaggle 3)UCI2 sklearn数据集 sklearn.datasets load_* 获取小规模数据集 fetch_* 获取大规模数据集 2 sklearn小数据集 sklearn.datasets.load_iris() ...原创 2019-01-22 11:57:36 · 5765 阅读 · 0 评论 -
机器学习概述
1 人工智能概述 达特茅斯会议-人工智能的起点 机器学习是人工智能的一个实现途径 深度学习是机器学习的一个方法发展而来 机器学习、深度学习能做些什么 传统预测 图像识别 自然语言处理2 什么是机器学习 数据 模型 预测 从历史数据当中获得规律?这些历史数据是怎么的格式? 数据集构成 特征值 + 目标值3 机器学...原创 2019-01-22 11:48:23 · 245 阅读 · 0 评论