Hadoop学习之自己动手做搜索引擎【网络爬虫+倒排索引+中文分词】
一、使用技术Http协议正则表达式队列模式Lucenne中文分词MapReduce二、网络爬虫项目目的 通过制定url爬取界面源码,通过正则表达式匹配出其中所需的资源(这里是爬取csdn博客url及博客名),将爬到的资源存入文件中便于制作成倒排索引。根据页面源码垂直爬取csdn网站中的所有博客资源(找到一个超链接就爬取该超链接中的内容)。设计思想 建立一个队列对象,首先将传入
原创
2016-05-12 21:16:49 ·
7116 阅读 ·
5 评论