以爬取猫眼电影为例:
反爬虫操作:User-Agent伪装成通过浏览器浏览网页,User-Agent获取过程:在目标网页处按键F12,点击Network框,在出现的开发者界面中刷新当前界面,在出现的Request Header中找到User-Agent的值,复制下来:
(这里的User-Agent是任选网站的User-Agent,内容不具参考价值)
完整代码如下:
import requests
from lxml import etree
import json
def getOnePage(page):
#字符串的格式化
url = f'https://maoyan.com/board/4?offset={page*10}'
header = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER'}
#伪装成浏览器
r = requests.get(url, headers = header )
return r.text
def parse(text):
#初始化、标准化
html = etree.HTML(text)
#names是列表 xpath返回的一定是列表
names = html.xpath('//div[@class="movie-