搜索
jysunruihong
这个作者很懒,什么都没留下…
展开
-
中文分词原理与实现
存在意义 中文文本不存在边界,所以中文分词是专业处理中文信息的搜索引擎需首先面对的问题 1 Lucene中文切分 StandardTokenizer单子分词 CJKTokenizer二元覆盖 CnTokenizer 单子切分问题问题 搜索’上海’ 结果可能‘海上’ 二元覆盖可以解决‘上海‘和’海上‘混淆问题 适合小规模搜索网站 中文分词适用于大规模的搜索引擎 1转载 2017-09-14 16:42:56 · 616 阅读 · 0 评论 -
爬虫学习备忘
1,爬虫分类 开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的?上面说的爬虫,基本可以分3类: (1)分布式爬虫:Nutch 现在比较流行的分布式爬虫,是Apache的Nutch,Nutch是为搜索引擎设计的爬虫 (2)JAVA爬虫:Crawler4j、We转载 2017-11-24 11:19:04 · 572 阅读 · 0 评论 -
lucene优先
段合并http://forfuture1978.iteye.com/blog/609197原创 2017-12-04 15:08:37 · 256 阅读 · 0 评论