requests模块简单爬虫

最新推荐文章于 2022-11-30 18:44:16 发布

晓凤6

最新推荐文章于 2022-11-30 18:44:16 发布

阅读量372

点赞数

文章标签：爬虫 python pycharm

本文链接：https://blog.csdn.net/qq_45284251/article/details/127416034

版权

用requests模块进行网页爬虫，首先得下载requests包，这里以pycharm为例，如图1所示，进行安装。

在这里插入图片描述

图1

安装好requests后，开始编写代码，代码逻辑主要为以下三步骤：

（1）导入requests模块
（2）指定网页URL，这里以搜狗为例
（3）利用requests进行get请求，并用response接受返回的对象，注意，response是一个对象
（4）输出response的text内容
（5）对爬取到的数据进行存储
代码为：

import requests
if __name__ == "__main__":
    url = 'http://www.sogou.com/'
    # 发出get请求并接受返回的对象
    response = requests.get(url=url)
    print(response)
    # 读取response中的对象的，即html元素
    page_text = response.text
    print(page_text)
    # 建立html文件，进行持久化存储数据
    with open('./sogou.html','w',encoding='utf-8') as fp:
        fp.write(page_text)
    print('爬取数据结束！！！')

最终的结果如图2、3所示。

在这里插入图片描述

图2

在这里插入图片描述

图3

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

晓凤6

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
requests模块简单爬虫

（3）利用requests进行get请求，并用response接受返回的对象，注意，response是一个对象。（4）输出response的text内容。（2）指定网页URL，这里以搜狗为例。（1）导入requests模块。（5）对爬取到的数据进行存储。
复制链接

扫一扫