爬虫学习日记第一篇（简易网页采集器）

最新推荐文章于 2023-01-12 10:01:22 发布

开心星人

最新推荐文章于 2023-01-12 10:01:22 发布

阅读量564

点赞数 2

分类专栏： Python 文章标签：爬虫前端 http

本文链接：https://blog.csdn.net/qq_55675216/article/details/122537891

版权

Python 专栏收录该内容

19 篇文章 0 订阅

订阅专栏

搜狗网站为例
在这里插入图片描述
想把这整个搜索页面抓取下来

url很长，简化url发现显示内容并不影响

开始编写代码

import requests
if __name__=="__main__":
    url="https://www.sogou.com/web"
    #处理的url携带的参数：封装到字典中
    # （原来的url为https://www.sogou.com/web?query=%E4%BD%A0%E5%A5%BD）这里经过了url编码，get传参
    kw=input("Please enter words that you want to search:")
    param={
        'query':kw
    }
    #对指定的url发起的请求对应的url是携带参数的，并且在请求过程中处理了参数
    response = requests.get(url=url,params=param)
    page_text=response.text
    fileName=kw+'.html'
    with open(fileName,'w',encoding='utf-8') as f:
        f.write(page_text)
    print(fileName,'保存成功')

运行之后，输入"中国"，得到了“中国.html”，浏览器打开
在这里插入图片描述

UA:User-Agent（请求载体的身份标识）
UA检测：门户网站的服务器会检测对应请求的载体身份标识，如果检测到请求的载体身份标识为某一款浏览器说明该请求是正常的请求。但是如果检测到请求的载体身份标识不是基于某一款浏览器的，则表示该请求为不正常的请求（爬虫），服务器端很有可能会拒绝该次请求
UA伪装：让爬虫对应的请求载体身份标识伪装成某一款浏览器

浏览器简单抓包查看对应的User-Agent
在这里插入图片描述
更改代码

import requests
if __name__=="__main__":
    #UA伪装：将对应的User-Agent封装到一个字典中
    headers={
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36 Edg/97.0.1072.62'
    }
    url="https://www.sogou.com/web"
    #处理的url携带的参数：封装到字典中
    # （原来的url为https://www.sogou.com/web?query=%E4%BD%A0%E5%A5%BD）这里经过了url编码，get传参
    kw=input("Please enter words that you want to search:")
    param={
        'query':kw
    }
    #对指定的url发起的请求对应的url是携带参数的，并且在请求过程中处理了参数
    response = requests.get(url=url,params=param,headers=headers)
    page_text=response.text
    fileName=kw+'.html'
    with open(fileName,'w',encoding='utf-8') as f:
        f.write(page_text)
    print(fileName,'保存成功')