数据挖掘与算法
struggleee_luo
你当温柔,却有力量
展开
-
自学数据挖掘十大算法之C4.5
C4.5算法是由Ross Quinlan开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。构造决策树,每个树内节点(非叶节点)代表一个属性上的测试,树的每一个分支代表一个测试输出,每个叶子节点代表一个类标号。举例:我们根据一组天气情况属性判断去不去打高尔夫球,属原创 2015-01-12 13:25:00 · 1973 阅读 · 0 评论 -
自学数据挖掘十大算法之AdaBoost
Adaboost简介:Adaboost(adaptive boosting)是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。该算法其实是一个简单的弱分类算法提升过程原创 2015-01-30 14:51:52 · 1098 阅读 · 0 评论 -
自学数据挖掘十大算法之Apriori
Apriori简述:Apriori算法是关联规则分析,于1994年由Rakesh提出,其目的是在一个数据集中找出项与项之间的关系,也称购物篮分析。此算法有一个经典的案例:啤酒和尿布,美国的超市经过大量数据分析发现美国的老爷们儿在给自己孩子买纸尿布的同时大多都会提上一些啤酒,于是超市将这两样东西放在一起,大大提高了两者的销量。概念描述: 项集:指经常出现在一起的物品的集合原创 2015-02-03 09:01:13 · 892 阅读 · 0 评论 -
自学数据挖掘十大算法之CART
分类与回归树(Classification andRegression Trees, CART)算法由Breiman等人于1984年提出,是分类数据挖掘算法的其中一种。CART采用一种二分递归分割的技术,将当前的样本集分为两个子样本集,使得生成的决策树的每个非叶子节点都有两个分支。CART算法生成的决策树是结构简洁的二叉树。分类树下面有两个关键的思想。第一个是关于递归地划分自变量空间的想法;第二个原创 2015-02-06 10:42:51 · 4680 阅读 · 0 评论 -
自学数据挖掘十大算法之PageRank
PageRank是Google用来衡量一个网站好坏的唯一标准,Google将其分为0—10级,一般PR值达到4,该网站已经很不错了,Google将自己的网站等级定为10。对于某个互联网网页A来说,该网页的PageRank值的计算基于两个假设: 数量假设在Web图模型中,如果一个页面节点接收到的其他网页的入链数量越多那么这个网页越重要。原创 2015-03-05 22:11:02 · 1414 阅读 · 0 评论 -
Web Scraping with Python 学习笔记8
Chapter 8:Reading and Writing Natural LanguagesSummarizing Data 自然语言处理这块有一项重要的内容就是文本摘要,本节涉及的只是去停用词,类似中文的“地,的,得”,英文中对应的“the,be,and”等等。大概有5000个高频词汇,这足够过滤掉很多无用的2-grams,下面展示的是前100个词汇:def isCommon(ng原创 2015-12-28 10:52:02 · 1495 阅读 · 1 评论 -
gitlab中fork项目向源项目merge过程中的conflict问题
前段时间使用gitlab管理项目,遇到这样的问题,我fork了项目组长建立的项目,其中: 组长项目地址:http://192.168.1.1:8000/LOL/demaxiya.git 或者 git@192.168.1.1:LOL/demaxiya.git。 我的项目地址:http://192.168.1.1:8000/OW/demaxiya.git 或者git@192.168.1.1:LO原创 2016-06-29 22:57:54 · 11892 阅读 · 0 评论 -
Affinity Propagation (AP) 聚类算法的Java实现
Affinity Propagation (AP) 聚类是最近在Science杂志上提出的一种新的聚类算法。它根据N个数据点之间的相似度进行聚类,这些相似度可以是对称的,即两个数据点互相之间的相似度一样(如欧氏距离);也可以是不对称的,即两个数据点互相之间的相似度不等。这些相似度组成N×N的相似度矩阵S(其中N为有N个数据点)。AP算法不需要事先指定聚类数目,相反它将所有的数据点都作为潜在的聚类中原创 2014-12-29 16:04:32 · 3957 阅读 · 15 评论