机器学习
文章平均质量分 91
云聪
喜欢简洁的抽象,也着迷神奇的细节,我担心自己因为过于偏向抽象而变得肤浅,也害怕自己因为太过深入细节而迷失,这让我很痛苦,但是我不会放弃挣扎,因为我相信挣扎的过程就是成长。
展开
-
朴素贝叶斯文本分类
基础知识 1.多项式定理 (x1+x2+...+xr)n=∑(n1,...,nr):n1+...+nr=n(nn1,n2...nr)xn11xn22...xnrr(x_1 + x_2 + ... + x_r)^n = \sum_{(n_1,...,n_r):n_1+...+n_r=n}(_{n_1,n_2...n_r}^n)x_1^{n_1}x_2^{n_2}...x_r^{n_r}原创 2016-08-24 22:29:24 · 1091 阅读 · 2 评论 -
决策树
基础 熵 如果X是一个离散型随机变量,取值空间为R,其概率分布为p(x)=P(X=x),x∈Rp(x) = P(X = x), x \in R。那么,X的熵定义为: H(X)=−∑x∈Rp(x)log2p(x)H(X) = - \sum_{x \in R}p(x)log_2p(x)原创 2016-08-27 00:00:12 · 1120 阅读 · 0 评论 -
层次聚类——自底向上方法
直观认识 假设数据集D={a,b,c,d,e}D=\{a, b, c, d, e\}, 在D上运行自底向上的层次聚类算法的过程如下图所示:原创 2016-09-04 22:51:44 · 6779 阅读 · 1 评论 -
划分聚类——Kmeans算法
划分聚类 聚类是针对一堆没有类别属性的对象的,它把这一大堆对象分成一些小堆,并保证小堆内的对象之间彼此相似,小堆之间的对象彼此不同。划分聚类是聚类的一种,由它生成的小堆,小堆间没有一样的元素,大堆小堆之间关系和大集合与它的的分割一样。原创 2016-09-04 21:07:45 · 1977 阅读 · 0 评论 -
朴素贝叶斯分类
基础知识原创 2016-08-23 12:31:58 · 768 阅读 · 2 评论 -
线性回归——最小二乘求解
线性回归 线性回归用于数值预测,它的主要思想是利用预定的权值将属性进行线性组合来表示类别: y=w0+w1x1+w2x2+...+wnxny = w_0 + w_1x_1 + w_2x_2 + ... + w_nx_n原创 2016-09-11 14:47:04 · 3122 阅读 · 0 评论 -
序列模式挖掘——GSP算法
序列模式挖掘的基本概念 项目全集I、项集X和事务集合T的概念和文章关联规则挖掘——Apriori算法 中定义的一致。一个序列(Sequence)是一个有序的项集列表,这个有序通常是指时间有序。原创 2016-09-01 20:29:31 · 8374 阅读 · 0 评论 -
关联规则挖掘——Apriori算法
前言 大二的时候,一个老师为了勾起我们对数据挖掘的兴趣,老是问我们这个问题:你们知道超市为什么要把啤酒跟尿布放在一起吗?但是从来没告诉我们答案。现在,很多人都听过这个问题,觉得很平常,但是那时的我真觉得挺神奇的。直到后来,了解了关联规则挖掘,学习了关联规则挖掘的代表性算法Apriori,才终于知道了答案。关联规则挖掘,就是找出那些经常同时出现的事物,比如啤酒和尿布。原创 2016-08-31 00:26:42 · 3520 阅读 · 1 评论 -
基于图的评级算法——HITS
基本思想 HITS是Hypertext Induced Topic Search的缩写,它不仅给图中节点打上权威性(也就是PageRank算法中的重要性)分值,也打上中心性分值。中心性分值由该节点指向的节点决定,包括该节点指向了多少节点以及这些节点的重要性;权威性分值由指向该节点的节点决定,包括节点的数量以及这些节点的中心性原创 2016-08-20 16:37:58 · 1672 阅读 · 0 评论 -
基于图的评级算法——PageRank
简介 PageRank算法由Google创始人提出,用来给互联上的网页进行重要性打分。原创 2016-08-20 13:55:32 · 2340 阅读 · 0 评论 -
基于图的评级算法基础——马尔可夫链
本文只介绍离散时间的马尔可夫链,但这对于理解接下来要讲的PageRank算法、HITS算法和TextRank算法足够了。原创 2016-08-18 23:22:46 · 1547 阅读 · 0 评论 -
KNN(K-最近邻)
算法介绍 KNN分类算法应该是最容易理解的机器学习算法了。它是惰性学习法的一种,它并不从训练数据集中得到一个分类模型,而是简单的存储这些训练数据,当一个待分类数据X到来时,它计算X和训练数据集中所有数据的距离,然后选择离X最近的k个数据,这k个数据称为X的k最近邻,并把这k个数据中出现次数最多的类别赋给X。原创 2016-08-29 00:07:53 · 1099 阅读 · 0 评论 -
Java实现Kmeans算法
Kmeans算法的Java实现,源码放在github上,大家有兴趣可以下下来看看, 源码地址:https://github.com/l294265421/algorithm-kmeans实现该算法主要阅读的书籍是:《Web数据挖掘》第二版,作者:Bing Liu,译者:俞勇原创 2015-08-14 22:15:22 · 1266 阅读 · 0 评论 -
降维——PCA(主成分分析)
降维技术使得我们可以用低维向量表示高维向量。PCA是降维技术的一种,它的思想是,把一个高维向量投影到低维子空间中,子空间基的选择原则是尽量使得投影前不同的向量在投影后依旧不同。接下来,我们就具体介绍PCA的工作原理。原创 2016-09-15 00:25:16 · 2933 阅读 · 0 评论