啃书笔记(机器学习实战中文版)
香槟酒气满天飞
这个作者很懒,什么都没留下…
展开
-
《机器学习实战中文版》简化数据
简化数据降维技术1. PCA按照数据方差最大方向调整数据的主成分分析降维2. SVD用奇异值分解矩阵,通过对原始数据的逼近来达到降维目的(书上用的NumPy中的linglg线性代数工具箱实现,关于矩阵这一块的知识需要恶补,暂时continue)...原创 2020-11-07 17:05:29 · 105 阅读 · 0 评论 -
《机器学习实战中文版》无监督学习
无监督学习1. K-均值聚类算法随机选择起始质心计算质心与数据之间的距离将数据点分配到距其最近的簇计算簇中所有点的均值并作为质心最后得到分类结果2. Apriori算法发现频繁集从频繁项集中挖掘关联规则在最近n个距离值中找出最多的类别该类别即待分类数据的类别3. FP-growth算法用于高效发现频繁项集构建FP树从FP树中挖掘频繁项集(关于FP-growth算法,在挖掘频繁项集的实现代码中,并没有很理解第二次建树的逻辑,以后再有研究再来填坑)...原创 2020-11-07 10:59:42 · 609 阅读 · 0 评论 -
《机器学习实战中文版》 树回归
树回归1. 概述在树结构的每个叶节点上都构建出一个线性模型优点:可以对复杂和非线性的数据建模。缺点:结果不易理解。适用数据范围:数值型和标称型数据。2. 实现构建树树剪枝避免模型对数据的过拟合预剪枝后剪枝模型树前面是把叶节点设定为常数值,现在把叶节点设定为分段的线性函数树回归与标准回归的比较Tkinter 库创建 GUI3. 总结本章依然是回归和分类问题...原创 2020-11-04 16:44:18 · 80 阅读 · 0 评论 -
《机器学习实战中文版》 预测数值型数据:回归
kNN算法1. 概述采用测量不同特征值之间的距离方法进行分类优点:精度高、对异常值不敏感、无数据输入假定。缺点:计算复杂度高、空间复杂度高。适用数据范围:数值型和标称型。2. 实现用距离公式计算出待分类数据和数据集的距离得出距离最近的n个距离值在最近n个距离值中找出最多的类别该类别即待分类数据的类别3. 总结简单有效但是占用大量空间和时间可用于简单分类...原创 2020-11-02 20:09:14 · 107 阅读 · 0 评论 -
《机器学习实战中文版》 机器学习分类学习器性能测试
机器学习分类学习器性能测试1. 数据部分从文件中读取数据特征为马的某些医院检测的指标标签为是否属于疝气病症在本次测试中只选取了部分特征list格式数据2. 学习器部分K-近邻居算法决策树朴素贝叶斯Logistic回归支持向量机集成学习# 选择学习器# KNN, Tree, Bayes, Logistic, SVM, Adaboost, ALLchoiceModel = 'ALL'3. 结果学习器对于分类的错误率4. 全部代码分类器是机器学习实战中文版原创 2020-11-02 17:48:53 · 232 阅读 · 0 评论 -
《机器学习实战中文版》 利用AdaBoost元算法提高分类性能
机器学习实战中文版:利用AdaBoost元算法提高分类性能1. 概述基于数据集多重抽样的分类器将不同的分类器组合起来,组合有多种形式:不同算法的,也可以是同一算法不同设置,还可以是数据集和分类器都不同,书上主要对AdaBoost进行了实现前人栽树,后人乘凉AdaBoost全称是自适应增强算法,是顺序级联的结构,使用的分类器类型是一样的,分类的结果是基于所有分类器的加权求和结果,每个权重代表的是其对应分类器在上一轮迭代中的成功度优点:泛化错误率低,易编码,可以应用在大部分分类器上,无参数调整。原创 2020-10-28 22:27:46 · 107 阅读 · 0 评论 -
《机器学习实战中文版》 支持向量机
支持向量机1. 概述采用测量不同特征值之间的距离方法进行分类优点:精度高、对异常值不敏感、无数据输入假定。缺点:计算复杂度高、空间复杂度高。适用数据范围:数值型和标称型。2. 实现用距离公式计算出待分类数据和数据集的距离得出距离最近的n个距离值在最近n个距离值中找出最多的类别该类别即待分类数据的类别3. 总结简单有效但是占用大量空间和时间可用于简单分类...原创 2020-10-26 14:33:42 · 99 阅读 · 0 评论 -
《机器学习实战中文版》 Logistic回归
Logistic回归1. 概述采用测量不同特征值之间的距离方法进行分类优点:计算代价不高,易于理解和实现。缺点:容易欠拟合,分类精度可能不高。适用数据类型:数值型和标称型数据。2. 实现3. 总结...原创 2020-10-24 18:37:07 · 143 阅读 · 0 评论 -
《机器学习实战中文版》 朴素贝叶斯
朴素贝叶斯1. 概述通过计算不同独立特征的条件概率实现分类优点:在数据较少的情况下仍然有效,可以处理多类别问题。缺点:对于输入数据的准备方式较为敏感。适用数据类型:标称型数据。2. 实现贝叶斯准则计算条件概率已知p(c∣x)p(c \mid x)p(c∣x),求p(x∣c)p(x \mid c)p(x∣c),计算方法如下:p(c∣x)=p(x∣c)p(c)p(x)p(c \mid x)=\frac{p(x \mid c) p(c)}{p(x)}p(c∣x)=p(x)p(x∣c)p(c原创 2020-10-24 12:59:00 · 163 阅读 · 0 评论 -
《机器学习实战中文版》 决策树
决策树1. 概述构造树结构并按熵最小实现分类优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。缺点:可能会产生过度匹配问题。适用数据类型:数值型和标称型2. 实现计算出香农熵l(xi)=−log2p(xi)l\left(x_{i}\right)=-\log _{2} p\left(x_{i}\right)l(xi)=−log2p(xi)得出距离最近的n个距离值在最近n个距离值中找出最多的类别该类别即待分类数据的类别3. 总结原创 2020-10-23 17:15:16 · 110 阅读 · 0 评论 -
《机器学习实战中文版》 k-近邻算法
kNN算法1. 概述采用测量不同特征值之间的距离方法进行分类优点:精度高、对异常值不敏感、无数据输入假定。缺点:计算复杂度高、空间复杂度高。适用数据范围:数值型和标称型。2. 实现用距离公式计算出待分类数据和数据集的距离得出距离最近的n个距离值在最近n个距离值中找出最多的类别该类别即待分类数据的类别3. 总结简单有效但是占用大量空间和时间可用于简单分类...原创 2020-10-23 15:26:49 · 51 阅读 · 0 评论