这里的定向抓取技术是指抓取一个特定站点的数据,并且是需要输入条件以后才能得到的数据;
定向抓取与大搜索的抓取的不同之处是:
1.定向抓取需要处理post,get数据甚至是cookie
2.定向抓取不需要进行图的周游
3.定向抓取对url的重复识别没有大搜索复杂
4.定向抓取一般不需要dns缓存
5.定向抓取不需要seeds,但需要配置数据源
6.定向抓取要求抓的更精确;
目标数据的表现形式:分为多页的列表+详细页面;因此抓取步骤可抽象成三点
1.得到list
2.得到detail
3.分页
定向抓取与大搜索的抓取的不同之处是:
1.定向抓取需要处理post,get数据甚至是cookie
2.定向抓取不需要进行图的周游
3.定向抓取对url的重复识别没有大搜索复杂
4.定向抓取一般不需要dns缓存
5.定向抓取不需要seeds,但需要配置数据源
6.定向抓取要求抓的更精确;
目标数据的表现形式:分为多页的列表+详细页面;因此抓取步骤可抽象成三点
1.得到list
2.得到detail
3.分页
实际工作中的技术点:
1.各种url路径处理、url重复识别
2.对post,get,cookie的支持
3.页面下载对http1.0以及http1.1(chunked)的支持
4.页面解析
5.多线程下载
6.下载页面的存储
还有一个基本要求,就是7*24小时的运行强度;由于网络的情况很复杂,因此除了技术以外,策略
1.各种url路径处理、url重复识别
2.对post,get,cookie的支持
3.页面下载对http1.0以及http1.1(chunked)的支持
4.页面解析
5.多线程下载
6.下载页面的存储
还有一个基本要求,就是7*24小时的运行强度;由于网络的情况很复杂,因此除了技术以外,策略
变的也很重要.