爬虫一般分为四个步骤:
第一步:获取网页文本
1、urllib
2、requests
3、selenium
第二步:解析网页文本
1、BeautifulSoup
2、XPath
3、正则表达式
4、selenium 中的browser
第三步:提取需要的信息
使用第二步中的模块的方法提取,具体方法点击链接即可查看:
1、BeautifulSoup
2、XPath
3、正则表达式
4、selenium中的browser
第四步:存储信息
1、Mysql
2、Excel
3、csv
4、Mongodb