自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

linglingbaby的专栏

海阔凭鱼跃,天高任鸟飞

  • 博客(7)
  • 资源 (2)
  • 收藏
  • 关注

转载 Hadoop计算文档的中每个词的TFIDF值

做数据挖掘的最常见的就是要对文档向量化,而向量化表示中最常见的就是TFIDF了。那么对于海量数据我们该如何计算呢?本文讲解一下使用Hadoop计算TFIDF值的步骤,在其它地方也有不少这方面的介绍,本文仅供参考。 在本地进行TFIDF计算需要三步:1.       统计数据集中独

2011-07-27 16:36:07 1179

转载 文本分类之特征简约

转自:http://hi.baidu.com/algorithms/blog/item/565243d9c5c009e238012f1e.html  feature reduce(特征简约)在classify(分类)中是一个常见的技术。它的主要目的是降维。在文本分类中,所谓的降维

2011-07-27 09:20:11 581

转载 海量数据处理方法总结

大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数据的公司经常会问到。 下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下

2011-07-27 08:53:35 310

转载 ictclas4j的一个bug

不知道用ictclas4j的人多不多,该项目地址是http://code.google.com/p/ictclas4j/ 关于ictclas分词系统讨论组地址是http://groups.google.com/group/ictclas其中在ictclas4j项目的issues中

2011-07-21 14:22:46 486

转载 当前几个主要的Lucene中文分词器的比较

1. 基本介绍:paoding :Lucene中文分词“庖丁解牛” Paoding Analysisimdict :imdict智能词典所采用的智能中文分词程序mmseg4j : 用 Chih-Hao Tsai 的 MMSeg 算法 实现的中文分词器ik :采用了特有的“正向迭代

2011-07-21 09:24:55 379

转载 Matrix67:漫话中文分词算法

记得第一次了解中文分词算法是在 Google 黑板报 上看到的,当初看到那个算法时我彻底被震撼住了,想不到一个看似不可能完成的任务竟然有如此神奇巧妙的算法。最近在詹卫东老师的《中文信息处理导论》课上 再次学到中文分词算法,才知道这并不是中文分词算法研究的全部,前前后后还有很多故事

2011-07-20 17:36:58 1282

转载 海量数据处理、分析与挖掘:机遇与挑战

2011年2月11日出版的《科学》杂志刊登专题——《数据处理》(Special Online Collection: Dealing with Data),围绕目前研究数据的海量增加展开讨论。专题导言文章《挑战与机遇》(Challenges and Opportunities)介

2011-07-20 13:47:18 1504

数据挖掘技术及其应用

大体讲述数据挖掘的理念,和一些常见的数据挖掘理论。具有入门级引导作用。

2011-07-29

机器学习之weka简介

Weka是基于java,用于数据挖掘和知识分析一个平台。来自世界各地的java爱好者们都可以把自己的算法放在这个平台上,然后从海量数据中发掘其背后隐藏的种种关系;开发并投入使用两年左右的时间,但是已经是很多人受益,特别是摆脱了繁重的海量数据。

2011-07-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除