![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
[18]机器学习
hjw199089
从事大数据
(1)查询引擎开发-presto深度开发-hive开发-自研查询引擎开发
(2)大数据用户行为分析
(3)spark、sparkstreaming、storm、druid开发应用经验
(4)数据仓库开发
展开
-
《机器学习实战》学习笔记-[1]-K近邻_第一个分类器
学习《机器学习实战》k-近邻算法概述 优点:精度高、对异常值不敏感、无数据输入假定。缺点:计算复杂度高、空间复杂度高。适用数据范围:数值型和标称型。工作原理存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集原创 2017-07-03 23:09:35 · 712 阅读 · 1 评论 -
《机器学习实战》学习笔记-[15]-无监督学习-利用Apriori进行关联分析
《机器学习实战》学习笔记-[14]-无监督学习-利用Apriori进行关联分析待续原创 2017-08-13 17:29:03 · 550 阅读 · 0 评论 -
《机器学习实战》学习笔记-[13]-无监督学习-利用K-均值聚类对未标注数据分组
《机器学习实战》学习笔记-[13]-无监督学习-利用K-均值聚类对未标注数据分组待续原创 2017-08-13 17:27:52 · 552 阅读 · 0 评论 -
《机器学习实战》学习笔记-[12]-回归-树回归
《机器学习实战》学习笔记-[12]-回归-树回归原创 2017-07-30 14:12:00 · 357 阅读 · 0 评论 -
《机器学习实战》学习笔记-[8]-回归-普通最小二乘OLS
回归-回归基础原创 2017-07-23 21:49:51 · 629 阅读 · 0 评论 -
《机器学习实战》学习笔记-[7]-利用AdaBoot元提高分类性能
利用AdaBoot元提高分类性能待学习原创 2017-07-23 21:48:33 · 242 阅读 · 0 评论 -
《机器学习实战》学习笔记-[11]-回归-前向逐步回归
《机器学习实战》学习笔记-[11]-回归-前向逐步回归原创 2017-07-30 14:10:38 · 2233 阅读 · 2 评论 -
《机器学习实战》学习笔记-[10]-回归-岭回归
《机器学习实战》学习笔记-[10]-回归-岭回归原创 2017-07-30 14:10:01 · 527 阅读 · 0 评论 -
《机器学习实战》学习
《机器学习实战》学习笔记-[1]-K近邻_第一个分类器《机器学习实战》学习笔记-[2]-K近邻_网站约会实例《机器学习实战》学习笔记-[3]-决策树_1_基础《机器学习实战》学习笔记-[3]-决策树_2_构建测试决策树《机器学习实战》学习笔记-[4]-基于概率的分类-朴素贝叶斯原创 2017-07-08 23:57:21 · 1208 阅读 · 0 评论 -
《机器学习实战》学习笔记-[9]-回归-加权最小二乘LWLR
线性回归求的是最小均方误差:可能出现欠拟合现象。因此在估计中引入一些偏差可以降低预测的均方误差。原创 2017-07-30 12:14:15 · 1210 阅读 · 0 评论 -
《机器学习实战》学习笔记-[6]-支持向量机SMO
机器学习实战之支持向量机SMO原创 2017-07-23 15:36:33 · 496 阅读 · 0 评论 -
《机器学习实战》学习笔记-[2]-K近邻_网站约会实例
接上一节《机器学习实战》学习笔记-[1]-K近邻_第一个分类器1) 收集数据:可以使用任何方法。(2) 准备数据:距离计算所需要的数值,最好是结构化的数据格式。(3) 分析数据:可以使用任何方法。(4) 训练算法:此步骤不适用于k-近邻算法。(5) 测试算法:计算错误率。(6) 使用算法:首先需要输入样本数据和结构化的输出结果,然后运行k-近邻算法判定输 入数据原创 2017-07-04 23:10:12 · 406 阅读 · 0 评论 -
《机器学习实战》学习笔记-[3]-决策树_2_构建测试决策树
利用以上模块基于最好的属性划分数据集,每个数据集上再次最优划分,以次递归递归的结束条件,遍历完所有的数据集属性,或者每个分支下的所有实例都有相同的分类;或者特征使用完仍然不能唯一分类数据,采用多数表决的方式选择该数据块的分类标签原创 2017-07-07 01:14:54 · 379 阅读 · 0 评论 -
《机器学习实战》学习笔记-[3]-决策树_1_基础
决策树是一种容易理解的分类算法,它可以认为是if-then规则的一个集合。主要的优点是模型具有可读性,且分类速度较快,不用进行过多的迭代训练之类。决策树学习通常包括3个步骤:特征选择、决策树的生成和决策树的修剪。比较常用到的算法有ID3、C4.5和CART。基本概念和应用参考:统计学习方法(五)——决策树第一步:决策特征值的选择(能够最好分类)原创 2017-07-06 00:28:23 · 336 阅读 · 0 评论 -
《机器学习实战》学习笔记-[4]-基于概率的分类-朴素贝叶斯
朴素贝叶斯算法贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。这个定理解决了现实生活里经常遇到的问题:已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(A|B)的情况下如何求得P(B|A)。这里先解释什么是条件概率: 表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率。其基本求解公式为:。原创 2017-07-08 17:26:18 · 515 阅读 · 0 评论 -
《机器学习实战》学习笔记-[5]-logistic回归
利用一条直线对给定数据点进行拟合(该线称为最佳拟合直线),这个拟合过程叫回归分析,利用logistic回归分类的主要思想是:根据现有数据对分类边界线建立回归公式。logistic优点:计算代价不高,易于理解和实现缺点:容易欠拟合,分类精度可能不高适用的数据类型:数值型和标称型数据对于二分类问题的分类函数最佳可想到单位阶跃函数,1和0分类分明,而现实难以实现。在数据上原创 2017-07-09 17:16:44 · 331 阅读 · 0 评论 -
《机器学习实战》学习笔记-[14]-无监督学习-利用二分K-均值聚类对未标注数据分组
《机器学习实战》学习笔记-[14]-无监督学习-利用二分K-均值聚类对未标注数据分组原创 2017-08-15 13:51:53 · 643 阅读 · 0 评论