Python网络爬虫
静态网页
静态网页的爬取过程一般是
发送请求——获得页面——解析页面——抽取并储存内容
所以分别需要学习用到的
请求库——解析库——存储库
请求库
urllib、requests
我这里详细学习的是requests,在某些方面上,requests的确要比urllib更加简单。
import requests
解析库
lxml+XPath、Beautiful Soup、Pyquery
我这里详细学习的是Beautiful Soup,也简单学习了lxml+XPath。
from bs4 import BeautifulSoup
存储库
PyMySQL、 PyMongo、 redis-py
我这里详细学习的是PyMySQL和redis-py的使用。
import pymysql
import redis
动态网页
动态网页的爬取过程一般有两种办法
Ajax分析 or 模拟浏览器自动爬取
其中的,我认为模拟浏览器自动爬取更加便捷、高效。
一般会去使用selenium或者Splash进行模拟
import selenium
爬虫框架
目前强大有名的爬虫框架——pyspider和scrapy
我打算学习的是scrapy
验证码的使用
暂未学习
代理的使用
暂未学习
模拟登录
暂未学习