- 博客(4)
- 资源 (23)
- 收藏
- 关注
原创 Nutch & Lucene 之 搜索引擎文本分析
0搜索引擎文本分析 ——网络爬虫处理互联网信息,从数量上看比例较大的是静态网页和动态的HTML页面。但整个网络上散落的各种格式化文本文件也非常重要。这部门文件包括了各种文章、各种产品文档等,对用户有很大的帮助。1——非结构化文本概述互联网上和企业网内有很多专业的文档资料,尤其在检索一些专业资料时,往往会在出现网页文档的同时出现一些DOC PDF PPT等格式的文档。非结构化的文本通常具有一
2015-02-25 12:52:49 1464 3
原创 中文分词器的总结
0 —— Lucene & Nutch是一种神奇的东西,包含了语义分析,自然语言处理,中文分析,网络爬取,索引建立,html解析等,下面介绍几种常用的中文分词工具1 —— StandardAnalyzer标准分析器,能够根据空格、符号、数字、字母、E-mail地址、IP地址以及中文字符的分析处理分割原始的文本信息,还可以支持过滤词表,用来替代StopAnalyzer能够完成的过滤功能。
2015-02-23 12:07:00 3923 2
原创 懒人日记 之 自己到底有多懒
一:起因0 之前写过类似的关于懒人与智能化的关系的博文,不善于学习,不善于发现问题,解决问题的根源 —— 懒;1 过去的一年,变化最大的是:每当遇到一个问题,及时的记录下来,并自行的分析并解决掉,而不是让问题躺在那里或者等着别人来解决 —— 依赖;2 遇到问题之时,方是增长知识的最佳时刻;遇到的问题就像一个人的灵感,需要及时的记录下来,因为一生中能有几回灵感 —— 灵感;3 盗版的
2015-02-22 21:24:30 1324 6
原创 语言仅仅是一种工具
一:起因:(1)你有没有这样类似的经历: 自己总是飘忽不定,什么都想学,却什么都学的不深,有一样东西你坚持学超过1个月了吗?自己唯一的技能能上的了场面的也是在工作的压力下学的,自己那么多的业余时间学的,都跟吃了翔一样,什么都干不了。 (2)自己似乎总是在忙碌着,在外人眼里似乎我很用功,回到家,不是看教学视频就是看书,但是我都做了些什么呢?今天突然想学Java了,就埋头看了2天,然后呢?
2015-02-10 18:54:23 3875 2
IKAnalyzer2012_u6 和 jcseg-dict-all两款工具
2014-12-24
htmlparser解析Html的jar包和源文件包(两个)
2014-12-24
jxl解析Excel的jar包和源文件包(两个)
2014-12-24
ArcGIS_Editor_for_OSM_2_1_Desktop_Beta3
2014-11-26
数据结构(c++英文版)
2014-11-23
c++list类实现
2014-11-23
c++string类的实现
2014-11-23
数据挖掘导论完整版
2014-11-12
C++程序设计(谭浩强)
2014-08-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人