【Python】爬虫-----requests

最新推荐文章于 2024-08-02 10:29:40 发布

SamRol

最新推荐文章于 2024-08-02 10:29:40 发布

阅读量916

点赞数 1

分类专栏： Python记录册文章标签：爬虫 python 开发语言

本文链接：https://blog.csdn.net/qq_26082507/article/details/121294936

版权

Python记录册专栏收录该内容

51 篇文章 14 订阅

订阅专栏

一、伪装

为什么要伪装呢？因为不伪装，服务器就知道你是个爬虫程序就会执行反爬，所以爬虫程序要伪装得更像浏览器“蒙混过关”，在浏览器里按F12打开检查，里面有可以用来伪装的数据，也就是header。

复制这一段"user-agent"，伪装成浏览器的header里的一个内容。

import requests
url = "https://haokan.baidu.com/v?pd=wisenatural&vid=13010513670189503165"
headers = {
    "User-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36"
}
rep = requests.get(url,headers=headers)
print(rep.text)
rep.close();

二、访问百度翻译

由图可以看到该地址的请求方法为post，并且可以向该地址发送数据接收返回内容。

import requests
while(True):
    url = "https://fanyi.baidu.com/sug"
    s = input("请输入你要翻译的英文单词：")
    kw = {
        "kw":s
    }
    rep = requests.post(url, data= kw)
    print(rep.json())
    rep.close()

运行结果：

三、访问豆瓣排行榜

这回要用get函数了，如果嫌弃请求地址太长，可以用字典封装他的参数。这次还是要输入header🦎。

import requests
url = " https://movie.douban.com/j/chart/top_list"
#重新封装参数
dic  = {
        "type": "1",
        "interval_id": "100:90",
        "action":"",
       " start":"0",
        "limit": "20"
 }
headers = {
    "User-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36"
}
rep = requests.get(url=url, params=dic,headers=headers)
print(rep.text)
rep.close()

SamRol

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
【Python】爬虫-----requests

一、伪装把爬虫程序伪装成用浏览器来访问地址。复制这一段"user-agent"，伪装成浏览器的header。import requestsurl = "https://haokan.baidu.com/v?pd=wisenatural&vid=13010513670189503165"headers = { "User-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KH.
复制链接

扫一扫