requests模块简单爬虫

用requests模块进行网页爬虫,首先得下载requests包,这里以pycharm为例,如图1所示,进行安装。

在这里插入图片描述

图1

安装好requests后,开始编写代码,代码逻辑主要为以下三步骤:

(1)导入requests模块
(2)指定网页URL,这里以搜狗为例
(3)利用requests进行get请求,并用response接受返回的对象,注意,response是一个对象
(4)输出response的text内容
(5)对爬取到的数据进行存储
代码为:

import requests
if __name__ == "__main__":
    url = 'http://www.sogou.com/'
    # 发出get请求并接受返回的对象
    response = requests.get(url=url)
    print(response)
    # 读取response中的对象的,即html元素
    page_text = response.text
    print(page_text)
    # 建立html文件,进行持久化存储数据
    with open('./sogou.html','w',encoding='utf-8') as fp:
        fp.write(page_text)
    print('爬取数据结束!!!')

最终的结果如图2、3所示。

在这里插入图片描述

图2

在这里插入图片描述

图3
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值