机器学习算法学习
一直往前不要停
这个作者很懒,什么都没留下…
展开
-
机器学习实战(阅读笔记)
开发机器学习应用程序的步骤1)收集数据:采用多种方式收集数据,如爬虫,如其他各种方式进行数据采集2)准备输入数据:不同的算法要求不同的数据,必须保证数据格式符合要求3)分析输入数据:识别数据中明显的异常数据,将异常数据提出出来4)训练算法(如果使用无监督学习算法,由于不存在目标变量值,故而不需要训练算法,k-近邻算法也不需要训练算法)5)测试算法,评估算法,必须测试算法原创 2018-02-01 00:57:37 · 205 阅读 · 0 评论 -
K-近邻算法 机器学习实战(阅读笔记)
优点:精度高 ,对异常值不敏感,无数据输入假定缺点:计算复杂度高,空间复杂度高适用数据范围:数值型,标称型算法原理:存在一个样本数据集合,也称作训练样本集,并且样本集中的每个数据都存在标签,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本中特征中最相似数据的分类标签,一般来说, 我们只选择样本数据及中前k个最相似数据中出现次数最多的分类,作为新数据的分类。原创 2018-02-01 01:05:12 · 192 阅读 · 0 评论 -
决策树算法(机器学习实战,阅读笔记)
优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据缺点:可能会产生过度匹配问题使用数据类型:数值型,标称型适用场景:邮件分类,专家系统原理:在构造决策树时,需要解决的第一个问题上,当前数据集在哪个特征在划分数据分类时起决定性作用,为了找到决定性的特征,划分出最好的结果,我们必须评估每个特征。完成测试之后,原始数据酒杯划分为几个数据子集,这些原创 2018-02-01 02:04:46 · 295 阅读 · 0 评论 -
EM算法学习
算法用来干什么的? 参数估计(东南大学高等数学教材里面就把类似部分内容放到参数估计中,大学没好好学,实在惭愧,得补一补)需要的知识基础:最大似然估计,条件概率(后验概率概率论知识),Jensen不等式:初始化分布参数重复直到收敛:E步骤:用分布参数计算每个实例的聚类概率。(即每个实例属于不同聚类的概率)M步骤:重新估计分布转载 2018-01-28 15:24:01 · 277 阅读 · 0 评论 -
聚类系列----层次聚类方法
聚类系列------层次聚类机器学习——非监督学习——层次聚类(Hierarchical clustering)分裂方法,凝聚方法距离计算方法最大距离,最小距离,均值距离,平均距离转载 2018-01-28 16:18:39 · 395 阅读 · 0 评论 -
k均值算法,k-means算法原理
一 经典的k-均值聚类 思路: 1 随机创建k个质心(k必须指定,二维的很容易确定,可视化数据分布,直观确定即可); 2 遍历数据集的每个实例,计算其到每个质心的相似度,这里也就是欧氏距离;把每个实例都分配到距离最近的质心的那一类,用一个二维数组数据结构保存,第一列是最近质心序号,第二列是距离; 3 根据二维数组保存的数据,重新计算每个聚簇转载 2018-01-28 14:29:43 · 1885 阅读 · 0 评论