-
-
K近邻算法概述:工作原理,一般流程;
-
KNN示例:加载数据,分析数据,数据归一化,定义KNN算法,划分数据集,训练测试,使用算法构建完整可用系统;
-
-
-
决策树构造:伪代码,一般流程,信息增益,划分数据集,递归构造决策树;
-
测试和存储决策树:使用决策树执行分类,决策树存储;
-
-
-
基于贝叶斯决策理论的分类方法:贝叶斯准则,使用条件概率进行分类;
-
使用朴素贝叶斯进行文档分类:朴素贝叶斯一般过程,假设条件;
-
使用Python进行文本分类:从文本中构建词向量,从词向量中计算概率,根据现实情况修改分类器,文档词袋模型;
-
示例:使用朴素贝叶斯过滤垃圾邮件;
-
-
-
逻辑回归一般过程;
-
基于逻辑回归和Sigmod函数的分类;
-
基于最优化方法的最佳回归系数确定:梯度上升法,使用梯度上升寻找最佳参数,绘制决策边界,随机梯度上升,处理数据中的缺失值的方法,模型预测;
-
-
-
基于最大间隔分隔数据;
-
寻找最大间隔;
-
SMO高效优化算法:SMO算法,应用简版SMO算法处理小规模数据集;
-
-
-
基于数据集多重采样的分类器:集成方法的多种形式,bagging,boosting,Adaboost算法流程;
-
基于单层决策树构建弱分类器:构建数据集,构建单层决策树;
-
完整Adaboost实现;
-
基于Adaboost的分类;
-
在马疝病数据集上应用AdaBoost:加载数据;训练集训练Adaboost,测试集预测,观察随着分类器的个数的增加,算法的训练和测试效果;
-
非均衡分类问题:其他分类性能度量指标(正确率、召回率、ROC曲线),基于代价函数的分类器决策控制,处理非均衡问题的数据抽样方法(欠采样,过采样);
-
-
-
用线性回归找到最佳拟合直线:回归的一般方法,最小二乘法求解回归方程,python实现线性回归;
-
局部加权线性回归:训练,测试,评估拟合效果;
-
缩减数据来理解数据:岭回归;Lasso回归,前向逐步回归;
-
权衡偏差与方差:
-
-
-
树回归:优点,缺点,一般流程;
-
将CART算法用于回归:加载数据,查看数据分布,二元切分法,构建数据集切分函数,构建回归树,查看切分后数据集分布,测试其他数据集;
-
树剪枝:预剪枝,后剪枝;
-
模型树:分段线性数据集,模型树的叶节点生成函数,生成模型树,绘制数据集划分边界,使用模型树对新数据集进行预测;
-
-
-
K-means算法:工作流程,伪代码,一般流程,加载数据,构建k-means支持函数,构建k-means算法,查看簇分布;
-
使用后处理提升聚类性能:如何才能直到生成的簇比较好?k选择多少才合适?
-
二分k-means算法:加载数据,构建二分k-means算法,查看树分布;
-
-
-
关联分析:频繁项集,关联规则,支持度,可信度或置信度;
-
Apriori原理:一般过程,Apriori原理;
-
使用 Apriori 算法来发现频繁项集:生成候选项集,组织完整的Apriori算法;
-
从频繁项集中挖掘关联规则:可信度,一个频繁项集可以产生多少条关联规则,生成关联规则,示例:发现毒蘑菇的相似特征;
-
《机器学习实战》笔记十一:使用 FP-growth 算法来高效发现频繁项集
-
-
FP树用于编码数据集的有效方式:FP树,FP树示例说明,FP-growth 算法工作流程,FP-growth 一般流程;
-
构建FP树:FP树类的定义,构建FP树;
-
从一棵FP树中挖掘频繁项集:抽取条件模式基,创建条件 FP 树;
-
-
-
降维技术:主成分分析,因子分析,独立成分分析;
-
PCA:移动坐标系,在 numpy 中实现 PCA(数据准备,PCA 算法),示例:利用 PCA 对半导体制造数据降维(加载数据,使用 PCA 对数据降维,分析特征值结果,绘制总方差的百分比);
-
-
-
SVD的应用:隐性语义索引,推荐系统;
-
矩阵分解;
-
利用 Python 实现 SVD:使用numpy直接对矩阵进行奇异值分解,在更大的数据集上进行更多的分解,使用奇异值信息重构原始矩阵;
-
基于协同过滤的推荐引擎:相似度计算,基于物品的相似度还是基于用户的相似度,推荐引擎评价;
-
示例:餐馆菜肴推荐引擎:推荐未尝过的菜肴,利用 SVD 提高推荐的效果,构建推荐引擎面临的挑战;
-
基于 SVD 的图像压缩;
-