前言:在写python爬虫时,想在某网站上获取一部影片的信息,比如:AVOP-127,要先找到这部影片对应的网页。
有三种情况:
(1)影片对应的网址有规则可寻,比如“www.xxxx.com/movie=AVOP-127”,可以直接请求它**。**
(2)在网页上搜索影片,F12抓包后,看到实际请求的url:“www.xxxx.com/search=AVOP-127”这种类似的网址,网站便会返回影片对应的网页。
浏览器抓包,还是很好找的:
(3)以上两种都不行,想用网站上的“搜索栏”搜索影片;在搜索栏输入片名后,抓包,看到了搜索流程实际是向一个url发送表单:
代码:
# -*- coding:utf-8 -*-
import requests
headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'} # 伪装成浏览器浏览网页
url = 'https://www.xxxx.com/search'
params = {'sn': 'avop-127', } # 表单
jav_html = requests.post(url, data=params, headers=headers).text
print(jav_html) # jav_html就是得到的html源码