1、爬虫框架Scrapy比较好用,默认多线程,各模块分离。还可以用Requests+BeautifulSoup进行爬取。
2、反爬问题。添加header列表,IP地址池,每次爬取暂停一段时间。
3、Scrapy解析网页Xpath,比BeautifulSoup易读性强。
1、爬虫框架Scrapy比较好用,默认多线程,各模块分离。还可以用Requests+BeautifulSoup进行爬取。
2、反爬问题。添加header列表,IP地址池,每次爬取暂停一段时间。
3、Scrapy解析网页Xpath,比BeautifulSoup易读性强。
转载于:https://www.cnblogs.com/kingshine007/p/11375881.html