第一部分: 需求分析
爬虫在项目中间的作用
•
分析用户的行为需要根据用户浏览网页的分类及特征来决定,所以获取网页内容需要爬虫
•
单线程爬虫难以满足项目的需求,需要多线程爬虫来处理
第二部分: 技术点
Wget与HttpClient
•
Wget
是一个从网络上自动下载文件的自由工具
,
支持通过
HTTP
、
HTTPS
、
FTP
三个最常见的
TCP/IP
协议下载,并可以使用
HTTP
代理
•
HttpClient
是
Apache Jakarta Common
下的子项目,可以用来提供高效的、最新的、功能丰富的支持
HTTP
协议的客户端编程工具包,并且它支持
HTTP
协议最新的版本和建议
功能需求
•
分析网页内容取得词频
•
•
获取词与网页的对应关系
Page
rowkey: | url |
C_FAMILY | category |
Term_Page
rowkey: | term!`!url |
C_FAMILY | cg_raw |
第三部分: 代码实现
请参考视频和源码
私塾在线原创独家云计算课程