爬虫入门—requests模块基础之关键字搜狗搜索信息页面爬取

最新推荐文章于 2024-07-29 21:31:04 发布

*Labyrinthine Leo

最新推荐文章于 2024-07-29 21:31:04 发布

阅读量1.7k

点赞数

分类专栏： Spider入门文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_38330148/article/details/113855363

版权

Spider入门专栏收录该内容

11 篇文章 1 订阅

订阅专栏

爬虫入门—requests模块基础之关键字搜狗搜索信息页面爬取

Author： Labyrinthine Leo Init_time： 2021.02.16

Key Words： Spider、requests库

公众号：Leo的博客城堡

Leo

1、需求分析

需求：在上一节中，我们已经了解了requests模块的基本使用，并对搜狗搜索首页的页面信息进行爬取。这一节，我们想要通过通过编译器命令行输入关键字，然后对关键字进行搜狗搜素并将结果页面进行爬取保存到文件中。

分析：

如下图所示，在搜狗首页进行关键字搜索便会出现相应的搜索结果，可以发现，其中浏览器搜索的url其实就是在根路径下添加了query参数。

因此可以通过编译器输入想要搜索的关键字（如：风雨寒 CSDN），然后将其拼接到初始url（https://www.sogou.com/web?query=）上，然后构成完整url（https://www.sogou.com/web?query=风雨寒 CSDN），作为requests.get()方法中的url参数，对页面进行访问请求即可。
当然，可以使用主页面url（https://www.sogou.com/web），然后将搜索的关键字封装为字典形式params = {'query': keyword}，作为get()方法中的params参数输入即可。

2、编码

# coding  : utf-8
# fun     : 根据关键字爬取搜狗搜索页面信息
# @Author : Labyrinthine Leo
# @Time   : 2021.01.30

import requests
import json

def sougou_spider(url=None, keyword='百度'):
    """
    根据关键字爬取搜狗搜索页面信息
    :param url: 搜索链接
    :param kw: 关键字
    :return:
    """
    if url is None:
        print("url should not be None!")
        return
    # 1.指定url
    url = url
    # 2.UA伪装
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36'
    }
    # 3.参数设置
    params = {
        'query':keyword
    }
    # 4.发送请求
    response = requests.get(url=url, params=params, headers=headers)
    response.encoding = response.apparent_encoding # 矫正编码
    # 5.获取响应的页面
    page_text = response.text
    # 6.持久化存储
    fileName = keyword + '.html'
    with open(fileName,'w',encoding='utf-8') as fp:
        fp.write(page_text)
    print("{}信息爬取成功！".format(keyword))


if __name__ == '__main__':
    # 设置网页url
    url = "https://www.sogou.com/web"
    # 用户输入关键字
    keyword = input("enter your key word:")
    sougou_spider(url,keyword)

临渊羡鱼不如退而结网
创作不易，如果您觉得这篇文章对你有用，可以点个赞，算是对笔者的支持和激励！这里是Leo的博客城堡，以Python为核，ML&DL为主，泛之形形色色，输寥寥拙见，摄浮光掠影，讲三两故事。临渊羡鱼，不如退而结网，持续干货输出，有趣的灵魂值得你的关注！
原文可以去笔者的github主页：https://github.com/LabyrinthineLeo/Yxs_Git_Learning_repos查看（如果可以，点个star也无妨呀，嘿嘿）。

Leo的博客城堡

*Labyrinthine Leo

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
爬虫入门—requests模块基础之关键字搜狗搜索信息页面爬取

爬虫入门—requests模块基础之关键字搜狗搜索信息页面爬取Author： Labyrinthine Leo Init_time： 2021.02.16Key Words： Spider、requests库公众号：Leo的博客城堡1、需求分析需求：在上一节中，我们已经了解了requests模块的基本使用，并对搜狗搜索首页的页面信息进行爬取。这一节，我们想要通过通过编译器命令行输入关键字，然后对关键字进行搜狗搜素并将结果页面进行爬取保存到文件中。分析：如下图所示，在搜狗首
复制链接

扫一扫

专栏目录