- 博客(1)
- 资源 (1)
- 收藏
- 关注
转载 Python开源爬虫框架:Scrapy架构分析
所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。不过由于一个网站的网页很多,而我们又不可能事先知道所有网页的URL地址,所以,如何保证我们抓取到了网站的所有HTML页面就是一个有待考究的问题了。 一般的方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加入到爬虫的抓取队列中
2016-05-02 23:46:57 353
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人