2014年08月_人生偌只如初见

12月 11月 10月 09月 08月 07月 06月 05月

原创数据挖掘笔记-聚类-KMeans-文档聚类

本篇主要是根据K算法实现文档集的聚类。首先是要将需要聚类的文档进行向量化处理，这里采用的是TFIDF值来表示。文档之间的距离选用的是余弦距离，后面步骤没什么变化。DBSCAN算法聚类完成之后发现结果不是很理想，于是又加入了一些特征选择算法，达到降维的目的，结果还是比较理想的。其中开方检验的效果最好。

2014-08-28 14:58:01 1355

本篇主要是根据DBSCAN算法实现文档集的聚类。首先是要将需要聚类的文档进行向量化处理，这里采用的是TFIDF值来表示。文档之间的距离选用的是余弦距离，后面步骤没什么变化。DBSCAN算法聚类完成之后发现结果不是很理想，后面发现将数据降维后，结果还是比较理想的。代码托管:https://github.com/fighting-one-piece/repository-datamining.git。DBSCAN算法原理可以参考。java实现代码如下。

2014-08-21 17:22:48 2136

原创数据挖掘笔记-分类-贝叶斯-原理与简单实现

按这些术语，Bayes定理可表述为：后验概率 = (相似度*先验概率)/标准化常量，也就是說，后验概率与先验概率和相似度的乘积成正比。类条件概率P(tk|c) = (类c下单词tk在各个文档中出现过的次数之和 + 1) / (类c下单词总数 + 训练样本中不重复特征词总数)根据朴素贝叶斯公式，每个测试样例属于某个类别的概率 = 所有测试样例包含特征词类条件概率P(tk|c)之积 * 先验概率P(c)类条件概率P(tk|c) = (类c下包含单词tk的文件数 + 1) / (类c下文件总数+2)

2014-08-19 23:41:26 1386

转载数据挖掘笔记-特征选择-期望交叉熵

期望交叉熵也称为KL距离，反映的是文本类别的概率分布和在出现了某个特征的条件下文本类别的概率分布之间的距离，具体公式表示如下其中， P(t)表示特征t在文本中出现的概率， P(ci)表示ci类文本在文本集中出现的概率， P(ci|t)表示文本包含特征t时属于类别c的概率，|c|表示类别总数。如果特征t和类别强相关，即P(ci|t)大，并且相应的P(ci)又比较小，则说明特征t对分类

2014-08-14 18:22:26 7884

原创 HBase学习笔记-聚合函数

利用HBase的coprocessor特性实现聚合函数，添加coprocessor方式有两种1、修改hbase-site.xml，添加如下内容property> name>hbase.coprocessor.region.classesname> value>org.apache.hadoop.hbase.coprocessor.Aggregat

2014-08-13 18:46:54 12050 2

原创数据挖掘笔记-特征选择-遗传算法

基于遗传策略的特征选取遗传算法通常实现方式为一种计算机模拟。对于一个最优化问题，一定数量的候选解（称为个体）的抽象表示（称为染色体）的种群向更好的解进化。传统上，解用二进制表示（即0和1的串），但也可以用其他表示方法。进化从完全随机个体的种群开始，之后一代一代发生。在每一代中，整个种群的适应度被评价，从当前种群中随机地选择多个个体（基于它们的适应度），通过自然选择和突变产生新的生命种群，该种群...

2014-08-13 13:11:13 12455 3

转载数据挖掘笔记-特征选择-整体汇总

文本特征向量经典的向量空间模型(VSM: Vector Space Model)由Salton等人于60年代提出，并成功地应用于著名的SMART文本检索系统。VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量，就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距

2014-08-08 17:06:37 8741