py 爬虫网页采集器

最新推荐文章于 2023-11-20 23:37:22 发布

xiangzilong

最新推荐文章于 2023-11-20 23:37:22 发布

阅读量265

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/qq_36270681/article/details/111033454

版权

python 专栏收录该内容

41 篇文章 0 订阅

订阅专栏

import requests

#UA ：User-Agent(请求载体的身份标识)
#UA检测：门户网站的服务器会检测对应请求的载体身份标识，
#       如果检测到请求的载体身份标识为某一浏览器，说明该请求是一个正常请求
#       但是如果检测到请求的载体身份标识不是某一浏览器，则认为是不正常请求，被拒绝
# User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36


if __name__ == '__main__':
    #UA 伪装
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
    }
    url = 'https://www.baidu.com/s'
    # url = 'https://www.baidu.com/s?wd=%E6%88%98%E7%8B%BC2'
    #处理url 携带的参数：封装到字典
    kw = input('输入要爬取的网页关键词:')
    param = {
        'wd': kw
    }
    #对指定的url 发起的请求对应的url 是携带参数的，并且求情过程中处理了参数
    response = requests.get(url=url,params=param,headers=headers)
    page_text = response.text

    fileName = kw+'.html'
    with open(fileName,'w',encoding='utf-8') as pf:
        pf.write(page_text)
    print(fileName,'保存成功！')

xiangzilong

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
py 爬虫网页采集器

import requests#UA ：User-Agent(请求载体的身份标识)#UA检测：门户网站的服务器会检测对应请求的载体身份标识，# 如果检测到请求的载体身份标识为某一浏览器，说明该请求是一个正常请求# 但是如果检测到请求的载体身份标识不是某一浏览器，则认为是不正常请求，被拒绝# User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko.
复制链接

扫一扫

专栏目录