![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
首席撩妹指导官
大数据码农,欢迎小伙伴们一起研究探索。
展开
-
数据挖掘领域十大经典算法之—朴素贝叶斯算法(超详细附代码)
简介NaïveBayes算法,又叫朴素贝叶斯算法,朴素:特征条件独立;贝叶斯:基于贝叶斯定理。属于监督学习的生成模型,实现简单,没有迭代,并有坚实的数学理论(即贝叶斯定理)作为支撑。在大量样本下会有较好的表现,不适用于输入向量的特征条件有关联的场景。基本思想(1)病人分类的例子某个医院早上收了六个门诊病人,如下表:症状 职业 疾病 —————————————————— 打喷...原创 2018-10-26 10:13:22 · 3286 阅读 · 0 评论 -
数据挖掘领域十大经典算法之—PageRank算法
简介佩奇排名(PageRank),又称网页排名、谷歌左侧排名,是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google公司创办人拉里·佩奇(Larry Page)之姓来命名。Google用它来体现网页的相关性和重要性,在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。Google把从A...原创 2018-10-26 10:14:51 · 253 阅读 · 0 评论 -
数据挖掘领域十大经典算法之—K-邻近算法/kNN(超详细附代码)
简介又叫K-邻近算法,是监督学习中的一种分类算法。目的是根据已知类别的样本点集求出待分类的数据点类别。基本思想kNN的思想很简单:在训练集中选取离输入的数据点最近的k个邻居,根据这个k个邻居中出现次数最多的类别(最大表决规则),作为该数据点的类别。kNN算法中,所选择的邻居都是已经正确分类的对象。e.g:下图中,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果k=3,由于红色...原创 2018-10-26 10:15:52 · 479 阅读 · 0 评论 -
数据挖掘领域十大经典算法之—K-Means算法(超详细附代码)
简介又叫K-均值算法,是非监督学习中的聚类算法。基本思想k-means算法比较简单。在k-means算法中,用cluster来表示簇;容易证明k-means算法收敛等同于所有质心不再发生变化。基本的k-means算法流程如下:选取k个初始质心(作为初始cluster,每个初始cluster只包含一个点); repeat: 对每个样本点,计算得到距其最近的质心,将其类别标...原创 2018-10-26 10:17:32 · 522 阅读 · 0 评论 -
数据挖掘领域十大经典算法之—SVM算法(超详细附代码)
简介SVM(Support Vector Machine)中文名为支持向量机,是常见的一种判别方法。在机器学习领域,是一个有监督的学习模型,通常用来进行模式识别、分类以及回归分析。相关概念分类器:分类器就是给定一个样本的数据,判定这个样本属于哪个类别的算法。例如在股票涨跌预测中,我们认为前一天的交易量和收盘价对于第二天的涨跌是有影响的,那么分类器就是通过样本的交易量和收盘价预测第二天的涨跌...原创 2018-10-26 10:18:47 · 704 阅读 · 0 评论 -
数据挖掘领域十大经典算法之—EM算法
首先都有参考两篇文章:http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.htmlhttp://blog.csdn.net/zouxy09/article/details/8537620觉得他们写的非常好,可以参考,下面的内容也是自己看完了之后的一个整理的过程:1 最大似然概率 例子是说测量校园里面同学的身高...原创 2018-10-26 10:20:04 · 272 阅读 · 0 评论 -
推荐常用算法之-基于内容的推荐
Collaborative Filtering Recommendations (协同过滤,简称CF) 是目前最流行的推荐方法,在研究界和工业界得到大量使用。但是,工业界真正使用的系统一般都不会只有CF推荐算法,Content-based Recommendations (CB) 基本也会是其中的一部分。CB应该算是最早被使用的推荐方法吧,它根据用户过去喜欢的产品(本文统称为it...原创 2019-05-06 12:21:28 · 410 阅读 · 0 评论