Python中常用的爬虫根据包括scrapy,requests+bs4等,链接中(点这里)最后一部分”Web scraping”有两种方法的比较。总体来讲,大家比较推荐用scrapy。
网络抓取需要用到Python的Scrapy包,Chrome浏览器以及Xpath表达式。
Scrapy教程可以参考1和2。可以一边阅读一边运行几个样例代码。
Chrome浏览器主要用开发者工具中的Elements以及Network。Elements用于分析网页中感兴趣内容的Xpath表达式,Newwork用于分析网页内容的加载过程,常用于分析动态页面。
Xpath表达式可以参考教程(点这里).