机器学习
文章平均质量分 93
AI_BigData_WH
大数据、人工智能、机器学习爱好者!!!
展开
-
机器学习算法-朴素贝叶斯
贝叶斯定理特别好用,但并不复杂,它解决了生活中经常碰到的问题:已知某条件下的概率,如何得到两条件交换后的概率。贝叶斯分类法基于贝叶斯定理,是统计学分类方法,它可以基于当前条件预测样本的类隶属关系概率,如一个给定元组属于一个特定类的概率。朴素贝叶斯分类法假定一个属性值在给定类上的概率独立于其他属性的值,这一假定称为类条件独立性。原创 2017-09-17 20:53:40 · 1026 阅读 · 0 评论 -
机器学习算法-随机森林(RF)
随着大数据和人工智能热潮的相继而来,促使机器学习近些年也火的一塌糊涂。机器学习方法已在生产、科研和生活中有着广泛应用,而集成学习则是机器学习的首要热门方向。集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。集成学习有两个分支,一个是Boosting派系,另一个是Bagging流派,二者的区别主要如下:Boosting–假定原原创 2017-10-02 15:33:43 · 5931 阅读 · 0 评论 -
机器学习算法-DBSCAN聚类
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在有“噪声”的空间数据库中发现任意形状的聚类。原创 2017-09-12 20:38:57 · 1960 阅读 · 0 评论 -
机器学习相似度度量
在机器学习中,无论是分类问题、聚类问题或降维问题,经常需要度量不同样本之间的相似性。不过如何友好地表征不同样本之前的相似性?通常采用的方法就是计算样本间的“距离”。距离计算方法有很多,对于实际遇到的问题到底采用什么样的方法来计算距离是很讲究的,因为相似性度量的好坏很多时候直接关系到原始问题的求解结果。为了加深大家对各个距离方法的理解,本文就对常用的相似性度量策略作一个总结,希望对各位后续处理机器学习问题有所帮助。原创 2017-09-11 21:54:40 · 2003 阅读 · 0 评论 -
机器学习算法-PageRank(排序)
Larry Page于1998年提出了PageRank,并在斯坦福大学攻读计算机科学博士学位期间,遇到了Sergey Brin,两人于1998年合伙创立Google,并将PageRank应用在Google搜索引擎的检索结果排序上,该技术也是Google早期最关键的核心技术,已被成功申请专利。原创 2017-09-24 19:00:07 · 2904 阅读 · 0 评论 -
机器学习算法-决策树(一)
什么是决策树?类似于流程图的树结构;每个内部节点表示在一个属性上的测试;每个分枝代表一个测试输出;每个树叶节点存放一个类编号。如何使用决策树分类?给定一个类标号未知的元组X,在决策树上测试元组的属性值,跟踪一条由根到叶节点的路径,叶节点存放该元组的类预测。决策树容易转换为分类规则。原创 2017-09-08 18:15:01 · 1311 阅读 · 0 评论 -
机器学习算法-逻辑回归(LR)
虽说线性回归无法直接用于分类预测,但可以对其加层映射:将连续无穷输出映射到指定的有限输出。逻辑回归(Logistic Regression, LR)便是基于此思想在线性回归的结果上加上一个逻辑函数,将连续输出映射到$[0,1]$输出。逻辑回归是统计学习中的经典分类方法,通过历史数据的表现对未来结果发生的概率进行预测分类,概率大于一定阈值,输出为1,否则输出为0。原创 2017-09-09 21:57:02 · 1233 阅读 · 0 评论 -
机器学习算法-Adaboost
1995年,Freund and Schapire改进了Boosting算法,取名为Adaboost算法。AdaBoost算法的调整主要是:1. 使用加权后选取的训练数据代替随机选取的训练样本,这样将训练的焦点集中在比较难分的训练数据样本上; 2. 将弱分类器联合起来,使用加权的投票机制代替平均投票机制。让分类效果好的弱分类器具有较大的权重,而分类效果差的分类器具有较小的权重。原创 2017-09-08 12:29:05 · 1610 阅读 · 1 评论 -
机器学习算法-kNN
kNN算法是k近邻分类(k-nearest neighbor classification)算法的简称。基本流程是从训练集中找到和新数据最接近的k条记录,然后根据他们的主要分类来决定新数据的类别。该算法涉及3个主要因素:训练集、距离或相似的衡量、k的大小。原创 2017-09-05 20:20:14 · 935 阅读 · 0 评论 -
机器学习算法-kMeans
k-Means算法是划分聚类方法的一种,对于一个有n个对象的数据集,给定k值,算法首先给出一个初始的划分,以后通过反复迭代的方法改变划分,使得每一次改进之后的划分方案都较前一次更好。原创 2017-09-07 09:00:38 · 782 阅读 · 0 评论 -
机器学习算法-层次聚类AGNES
层次凝聚的代表是AGNES(AGglomerative NESting)算法。AGNES 算法最初将每个对象作为一个簇,然后这些簇根据某些准则被一步步地合并。两个簇间的相似度有多种不同的计算方法。聚类的合并过程反复进行直到所有的对象最终满足簇数目。原创 2017-09-23 21:08:02 · 22852 阅读 · 5 评论 -
机器学习算法-决策树(二)
决策树方法最早产生于上世纪60年代,到70年代末。由J Ross Quinlan提出了ID3算法,此算法的目的在于减少树的深度。但是忽略了叶子数目的研究。C4.5算法在ID3算法的基础上进行了改进,对于预测变量的缺值处理、剪枝技术、派生规则等方面作了较大改进,既适合于分类问题,又适合于回归问题。分类与回归树CART 模型最早由Breiman 等人提出,也已经在统计领域和数据挖掘技术中普遍使用。原创 2017-09-09 09:50:48 · 1494 阅读 · 0 评论