经过几轮面试,进入到NLP实验室,我开始是对其中的爬虫很感兴趣,正好再进来的第一天,老师就给我分配了一个分布式爬虫的项目:
分布式爬虫:
- B/S架构,hadoop平台
- 可配置站点
- 可配置正则表达式提取正文
- 缺省正文提取配置(ML)
这个任务对我这个初出茅庐的爬虫菜鸟难度确实很大,因为分布式是建立在多主机基础上,而且还要实现第一个那两个,因此我接下来会忙起来。
经过几轮面试,进入到NLP实验室,我开始是对其中的爬虫很感兴趣,正好再进来的第一天,老师就给我分配了一个分布式爬虫的项目:
分布式爬虫: