爬虫简易网页爬取器（只是爬取单个网页）

最新推荐文章于 2024-05-02 06:46:49 发布

沉默之剑？！

最新推荐文章于 2024-05-02 06:46:49 发布

阅读量554

点赞数

文章标签：爬虫 python 开发语言

本文链接：https://blog.csdn.net/m0_58374306/article/details/122378793

版权

import requests
if __name__ =='__main__':
    #UA伪装
    headers={
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2486.0 Safari/537.36Edge/13.10586'
    }#该User-Agent是edge浏览器的
    #指定url
    url='https://www.sogou.com/web'
    #封装,将你要搜索的动态的对象封装进入一个字典
    kv=input("输入一个搜索的词汇:")
    param={
        'query':kv
    }#封装对象的字典
    #使用get获取一个数据，也就是返回一个对象
    response = requests.get(url=url,params=param,headers=headers)
    # 获取响应数据
    page_text = response.text

    #持久化存储
    filename=kv+'.html'
    with open(filename,'w',encoding='utf-8') as fp:#filename代表的是衍生的那个文件，后缀必须是.html
        fp.write(page_text)
    print("chenggong")
    
#requests进行爬虫的四个步骤
#1.进行UA伪装
#2.指定URL
#3.发起请求，并且返回一个对象
#4.获取响应数据
#5.持久化存储