机器学习
文章平均质量分 76
竹落
这个作者很懒,什么都没留下…
展开
-
机器学习理解(一)
Spark这部分写完了,忽然发现自己没什么可写的了。。。还是把机器学习这部分写下,虽然有关机器学习的博客有很多,而且有的博客写的真的很好,但还是想将自己在学习机器学习时的一个理解记录下来,可能存在许多不足,因此如果有了新的理解,我会进行更新,当然,更加希望的是能借助之后在工作中的一些经验来逐步完善这方面的知识。。1.分类决策树---有监督学习分类决策树是一棵自上而下的树,用来进行预测,分支原创 2015-10-26 17:47:44 · 560 阅读 · 0 评论 -
机器学习理解(二)
3.神经网络分类器----有监督学习神经网络就是模仿人类大脑神经元工作方式的一种机器学习方法,同时它也是深度学习中的一个比较热门的知识点神经网络总共分为三层:输入层,隐藏层,输出层,每一层都是由若干个神经单元组成的输入层:事件有几个属性,该层就有几个神经元,即每一个属性对应一个神经元,神经元即为每个结点,结点的值即为相应属性的值输出层:有几个分类该层就有几个神经元,即每一个分类原创 2015-10-27 17:48:03 · 465 阅读 · 0 评论 -
机器学习理解(三)
今天插播下逻辑线性回归的一些知识,其实之前对这部分的内容还未太在意,后来实习以及找工作的过程中都碰到这个问题,就写下吧。。在这之前先扯点其他的。。当正负样本不均衡时,可以采取样本重构的方法,如重采样,在正样本及其K邻近范围之内的样本之间线性插值(y = y0 + α(y1 - y0),x=x0+α(x1 - x0),α=(x-x0)/(x1-x0)),得到新的样本,这样正样本数就会原创 2015-10-28 18:47:58 · 537 阅读 · 0 评论 -
机器学习理解(四)
5.KNN分类---有监督学习KNN即K近邻分类,它的基本思想就是找到与待分类样本最近的K个样本,在这K个样本中,哪个类别所包含的样本数最多,则待分类样本就属于哪一类基本步骤:1.分别求得待分类样本与训练样本的距离;距离的求法有欧式距离,马氏距离等,且分类样本是用向量进行表示的,分类样本的属性个数即为向量的维度2.对距离进行排序;3.选取距离值最小的K个样本;4.K个样本进原创 2015-10-29 17:32:31 · 897 阅读 · 0 评论 -
机器学习理解(五)
7.Apriori算法---无监督学习Apriori算法是关联规则挖掘算法中用的比较早的算法,事物和事物之间通常存在一定的联系,关联规则挖掘的目的就在于从在大量的数据项中发现隐藏着的联系或者相关性,揭示数据项间的依赖关系,如用户去超市购买啤酒的同时也会选择购买花生,那么啤酒和花生之间就形成了一定的关联关系Apriori算法的基本步骤如下:1.生成1-项候选项集;2.生成1-项频繁项原创 2015-10-30 17:25:57 · 548 阅读 · 0 评论 -
机器学习理解(六)
9.AdaBoost分类器----有监督学习AdaBoost也是一种分类算法,它是一种迭代算法,通过训练多个弱分类器,来得到强分类器,利用最终的强分类器来对数据进行分类,它的基本步骤为:1.赋予每个训练样本相同的权重,训练第一个弱分类器,此时个样本的权重为1/N(N为样本总数),将弱分类器得到的各样本的分类结果与其真实结果进行比较,分类错误的各样本的权重之和即为a,利用如下公式得到第一个弱原创 2015-11-02 17:43:44 · 648 阅读 · 0 评论