2011年07月_linglingbaby

做数据挖掘的最常见的就是要对文档向量化，而向量化表示中最常见的就是TFIDF了。那么对于海量数据我们该如何计算呢？本文讲解一下使用Hadoop计算TFIDF值的步骤，在其它地方也有不少这方面的介绍，本文仅供参考。在本地进行TFIDF计算需要三步：1. 统计数据集中独

2011-07-27 16:36:07 1190

转自：http://hi.baidu.com/algorithms/blog/item/565243d9c5c009e238012f1e.html feature reduce（特征简约）在classify（分类）中是一个常见的技术。它的主要目的是降维。在文本分类中，所谓的降维

2011-07-27 09:20:11 592

大数据量的问题是很多面试笔试中经常出现的问题，比如baidu google 腾讯这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。下

2011-07-27 08:53:35 320

不知道用ictclas4j的人多不多，该项目地址是http://code.google.com/p/ictclas4j/ 关于ictclas分词系统讨论组地址是http://groups.google.com/group/ictclas其中在ictclas4j项目的issues中

2011-07-21 14:22:46 495

1. 基本介绍：paoding ：Lucene中文分词“庖丁解牛” Paoding Analysisimdict ：imdict智能词典所采用的智能中文分词程序mmseg4j ：用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器ik ：采用了特有的“正向迭代

2011-07-21 09:24:55 387

记得第一次了解中文分词算法是在 Google 黑板报上看到的，当初看到那个算法时我彻底被震撼住了，想不到一个看似不可能完成的任务竟然有如此神奇巧妙的算法。最近在詹卫东老师的《中文信息处理导论》课上再次学到中文分词算法，才知道这并不是中文分词算法研究的全部，前前后后还有很多故事

2011-07-20 17:36:58 1302

2011年2月11日出版的《科学》杂志刊登专题——《数据处理》（Special Online Collection: Dealing with Data），围绕目前研究数据的海量增加展开讨论。专题导言文章《挑战与机遇》（Challenges and Opportunities）介

2011-07-20 13:47:18 1571

linglingbaby的专栏