python爬虫，网页采集器

最新推荐文章于 2022-09-11 15:51:53 发布

鹰立如睡

最新推荐文章于 2022-09-11 15:51:53 发布

阅读量341

点赞数

分类专栏：优雅的python

本文链接：https://blog.csdn.net/lvgaoyanh/article/details/104597242

版权

优雅的python 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

"""
步骤：
1 指定URL
2 发起请求
3 获取响应数据
4 持久化存储

案例1：网页采集器

反反爬虫方法：
UA伪装 user-agent请求载体身份标识：1 浏览器 2 爬虫
门户网站的服务器会检测对应请求的载体身份标识，如果不是浏览器，则表示该请求为不正常的请求
UA就是伪装成浏览器

"""

import requests
if __name__=="__main__":
    #ua伪装。在 开发者工具-network-headers 中找请求头
    headers = {
        'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36'
    }
    url = 'https://www.sogou.com/web'
    #处理url携带的参数，封装到字典中
    keyword = input("录入你要搜索的关键词：")
    param = {

        'query': keyword

    }
    response =  requests.get(url= url,params=param,headers=headers)
    page_text = response.text
   # print(page_text)
    fileName = keyword+'.html'
    with open("./"+fileName,'w',encoding='utf-8')as fp:
        fp.write(page_text)
    print("爬取数据完毕")