网络爬虫的尺寸规模
小规模,数据量小,爬取速度不敏感 | 中规模,数据规模比较大爬取速度敏感 | 大规模,搜索引擎,爬取速度关键 |
---|---|---|
Requests库 | Scrapy库 | 定制开发 |
爬取网页,玩转网页 | 爬取网站,爬取系列网站 | 爬取全网 |
爬取网页的通用代码框架
import requests
def getHTMLText(url):
try:
headers = {
'user-agent':'模拟浏览器信息'}
r = requests.get(url, headers = headers,timeout=30)
r.raise_for_status() # 如果不是200,产生异常requests.HTTPError
r.encoding