技术路线:requests-xpath
- 使用 requests 获取网页内容
使用 try...except 获取网页内容
- 使用 xpath 解析网页
对主要信息使用 xpath 进行提取
- 翻页及反爬处理
猫眼的翻页处理是 url 处进行翻页的
http://maoyan.com/board/4?offset=0
http://maoyan.com/board/4?offset=10
所以可以拼接处理url
猫眼的反爬主要是根据 user-agent 判断,所以访问的时候需要指定 headers
#!/usr/bin/env python
# _*_ coding:utf-8 _*_
import requests
from lxml import etree
def getHtml(url, headers):
try:
r = requests.get(url, headers=headers)
r.raise_for_status()
r.encoding = 'utf-8'
return r.text
except:
print('ERROR')
def fillList(html):
html = etree.HTML(html)
img = html.xpath('//*[@id="app"]/div/div/div/dl/dd/a/img[2]/@data-src') # 这里存在坑,使用Chrome查看元素时,图片属性是src,实际使用requ