机器学习
Self-Discipline
在校大学生
展开
-
数据集的使用
1.学习阶段可以用的数据集: 1)sklearn 2)kaggle 3)UCI 2 sklearn数据集 sklearn.datasets load_* 获取小规模数据集 fetch_* 获取大规模数据集 2 sklearn小数据集 sklearn.datasets.load_iris() ...原创 2019-01-22 11:57:36 · 5764 阅读 · 0 评论 -
无监督学习之K-means算法
1 什么是无监督学习 没有目标值 - 无监督学习 2 无监督学习包含算法 聚类:K-means(K均值聚类) 降维:PCA 3 K-means原理 4 案例:k-means对Instacart Market用户聚类 k = 3 流程分析: 降维之后的数据 1)预估器流程 2)看结果 3)模型评估 5 Kmeans性能评估...原创 2019-01-23 16:00:00 · 315 阅读 · 1 评论 -
模型保存和加载
我们可以将训练后的模型保存下来,下次直接导出就行了,节省了时间。 代码: from sklearn.datasets import load_boston from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.line...原创 2019-01-23 15:19:56 · 728 阅读 · 0 评论 -
逻辑回归与二分类
1 逻辑回归的应用场景 广告点击率 是否会被点击 是否为垃圾邮件 是否患病 是否为金融诈骗 是否为虚假账号 正例 / 反例 2 逻辑回归的原理 线型回归的输出 就是 逻辑回归 的 输入 激活函数 sigmoid函数 [0, 1] 1/(1 + e^(-x)) 假设函数/线性模型 ...原创 2019-01-23 15:07:05 · 947 阅读 · 0 评论 -
岭回归
岭回归即为带有L2正则化的线性回归,lambd(λ)为正则化力度=惩罚项系数。 代码: from sklearn.datasets import load_boston from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from ...原创 2019-01-22 21:49:35 · 1138 阅读 · 0 评论 -
欠拟合与过拟合
1 欠拟合 表现:预测结果不准确 原因:学习到数据的特征过少 解决:增加数据的特征数量 2 过拟合 表现:训练集上表现得好,测试集上不好 原因:原始特征过多,存在一些嘈杂特征,模型过于复杂是因为模型尝试去兼顾各个测试数据点 解决: 正则化 L1 损失函数 + λ惩罚项 ...原创 2019-01-22 21:15:52 · 150 阅读 · 0 评论 -
线性回归
1 回归问题:目标值 - 连续型的数据 2 线性回归的原理 什么是线性回归 1)函数关系 特征值和目标值 2)线型模型 线性关系 y = w1x1 + w2x2 + w3x3 + …… + wnxn + b = wTx + b 广义线性模型 非线性关系? 线性模型 1)自变量...原创 2019-01-22 21:08:41 · 237 阅读 · 0 评论 -
随机森林
随机森林是一个包含多个决策树的分类器,是一种集成学习方法(三个臭皮匠赛过诸葛亮)。 1 随机森林原理过程 训练集: N个样本 特征值 目标值 M个特征 随机 两个随机 训练集随机 - N个样本中随机有放回的抽样N个 bootstrap 随机有放回抽样 [1, 2, 3, 4, 5] 新的树的训练集 ...原创 2019-01-22 20:38:15 · 1569 阅读 · 0 评论 -
决策树
1 认识决策树 如何高效的进行决策? 特征的先后顺序(哪个特征先看,哪个特征后看) 2 决策树分类原理详解(看哪个特征能筛掉更多的数据,尽可能通过少的决策,达到目的) 已知 四个特征值 预测 是否贷款给某个人 先看房子,再工作 -> 是否贷款 只看了两个特征 年龄,信贷情况,工作 看了三个特征 信息论基础 1)信息 香农:消除随...原创 2019-01-22 20:33:03 · 201 阅读 · 0 评论 -
朴素贝叶斯算法
1 概率基础 联合概率、条件概率与相互独立定义 联合概率:包含多个条件,且所有条件同时成立的概率 P(程序员, 匀称) P(程序员, 超重|喜欢) P(A, B) 条件概率:就是事件A在另外一个事件B已经发生条件下的发生概率 P(程序员|喜欢) P(程序员, 超重|喜欢) P(A|B) 相互独立:P(A, B) = P(A)P(B) ...原创 2019-01-22 20:06:47 · 455 阅读 · 0 评论 -
KNN算法
KNN算法即K-近邻算法,KNN的核心思想是通过你的“邻居”来推断出你的类别。 1 K-近邻算法(KNN)原理 k 值取得过小,容易受到异常点的影响 k 值取得过大,样本不均衡的影响 确定邻居的方法(计算距离) 1)欧氏距离 2)曼哈顿距离(绝对值距离) 3)明可夫斯基距离(欧氏距离和曼哈顿距离的推广) 2 案例1:鸢尾花种类预测 1)获取数...原创 2019-01-22 19:37:44 · 277 阅读 · 1 评论 -
sklearn转换器和估计器
1 转换器 - 特征工程的父类 实例化 (实例化的是一个转换器类(Transformer)) 调用fit_transform(对于文档建立分类词频矩阵,不能同时调用) 标准化: (x - mean) / std fit_transform() fit() 计算 每一列的平均值、标准差 transform() (x - me...原创 2019-01-22 17:25:09 · 1214 阅读 · 0 评论 -
特征工程
特征工程是将数据(特征)处理,使得特征在机器学习上发挥更好的作用的方法。 特征抽取/特征提取:(文本类型 -> 数值 类型 -> 数值) 机器学习算法 - 统计方法 - 数学公式 pandas(库)主要用于数据清洗、数据处理 特征工程主要使用的是sklearn(库) 1.特征提取 1.1字典特征提取 - 类别 -> one-hot编码(sparse矩阵) skl...原创 2019-01-22 17:13:50 · 175 阅读 · 0 评论 -
轻松看懂机器学习十大常用算法
通过本篇文章可以对ML的常用算法有个常识性的认识,没有代码,没有复杂的理论推导,就是图解一下,知道这些算法是什么,它们是怎么应用的,例子主要是分类问题。 每个算法都看了好几个视频,挑出讲的最清晰明了有趣的,便于科普。 以后有时间再对单个算法做深入地解析。 今天的算法如下: 决策树 随机森林算法 逻辑回归 SVM 朴素贝叶斯 K最近邻算法 K均值算法 Adaboost 算法 ...转载 2019-02-23 21:21:57 · 205 阅读 · 0 评论