数据挖掘
二十同学
公众号:二十同学
展开
-
数据挖掘-K-近邻算法
微信搜索:“二十同学” 公众号,欢迎关注一条不一样的成长之路1. K-近邻算法k-近邻算法(k Nearest Neighbor),是最基本的分类算法,其基本思想是采用测量不同特征值之间的距离方法进行分类。2. 算法原理存在一个样本数据集合(训练集),并且样本集中每个数据都存在标签(即每一数据与所属分类的关系已知)。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较(计算距离),然后提取样本集中特征最相似数据(最近邻)的分类标签。一般会取前k个最相似的数据,然后取k个原创 2020-12-02 17:54:15 · 50012 阅读 · 0 评论 -
数据挖掘-朴素贝叶斯算法
微信搜索:“二十同学” 公众号,欢迎关注一条不一样的成长之路我个人认为,在数据挖掘领域,分类算法是最为重要。它根据以往的数据来对新的数据做预测。垃圾邮件判断,潜在用户挖掘等都会用到分类算法。今天把总结朴素贝叶斯算法(NaiveBayes)的学习心得。Bayes是谁Thomas Bayes,英国数学家。约1701年出生于伦敦,做过神甫。1742年成为英国皇家学会会员。1761年4月7日逝世。贝叶斯在数学方面主要研究概率论。他首先将归纳推理法用于概率论基础理论,并创立了贝叶斯统计理论,对于统计决.原创 2020-12-02 17:52:20 · 55764 阅读 · 0 评论 -
数据挖掘-层次聚类
微信搜索:“二十同学” 公众号,欢迎关注一条不一样的成长之路层次聚类(hierarchical clustering)算法极为简单:有N多节点,最开始认为每个节点为一类,然后找到距离最近的节点“两两合并”,合并后的两个节点的平均值作为新的节点,继续两两合并的过程,直到最后都合并成一类。下图表明了聚类的过程,距离最近的节点合并(第一步中,如果有两对节点距离一样,那就同时合并)层次聚类过程如果用数据挖掘工具来做(如SPSS),一般会生成一个树形图,那么我们可以根据分析问题的具体情况,选.原创 2020-12-02 17:48:39 · 52838 阅读 · 0 评论 -
数据挖掘-K-Means算法
微信搜索:“二十同学” 公众号,欢迎关注一条不一样的成长之路今天说聚类,但是必须要先理解聚类和分类的区别,很多业务人员在日常分析时候不是很严谨,混为一谈,其实二者有本质的区别。分类其实是从特定的数据中挖掘模式,作出判断的过程。比如Gmail邮箱里有垃圾邮件分类器,一开始的时候可能什么都不过滤,在日常使用过程中,我人工对于每一封邮件点选“垃圾”或“不是垃圾”,过一段时间,Gmail就体现出一定的智能,能够自动过滤掉一些垃圾邮件了。这是因为在点选的过程中,其实是给每一条邮件打了一个“标签”,这个标签只有原创 2020-12-02 17:45:17 · 52362 阅读 · 1 评论 -
数据挖掘-Apriori算法
微信搜索:“二十同学” 公众号,欢迎关注一条不一样的成长之路引子:啤酒与尿布据说这是一个真实的案例:沃尔玛在分析销售记录时,发现啤酒和尿布经常一起被购买,于是他们调整了货架,把两者放在一起,结果真的提升了啤酒的销量。后来还分析背后的原因,说是因为爸爸在给宝宝买尿布的时候,会顺便给自己买点啤酒……这已经成为了数据挖掘领域的一个经典桥段,甚至被维克托•迈尔•舍恩伯格在2012年最火爆的《大数据时代》中大书特书……这个故事我们权当是真的,不过今天是要看看它背后的细节,也就是关联分析(或者直接成为购物篮分析原创 2020-12-02 17:41:13 · 58013 阅读 · 2 评论