爬虫的流程分析

  1. 请求数据:requests库(这个库可以非常方便的去请求网络数据)

    • 安装方法:pip install requests
  2. 将请求下来的数据解析出来,获取我们想要的数据,把不想要的数据抛弃掉。

    • BeautifulSoup:pip install bs4
    • lxml:pip install lxml
  3. 将解析后的数据保存下来。如果是文字类型的,可以保存到文件中或者是数据库中或者缓存中都可以。如果是文件类型,比如图片,视频,那么可以保存到硬盘中。

  4. 无论你的爬虫是大还是小,他都是由这几个模块组成的。


#encoding:utf-8

#1.请求数据:requests库(请求网络数据)
#2.将请求下来的数据解析出来,获取相关要的数据:BeautifulSoup,lxml
#3.将解析后数据保存下来(格式有文字,图片,视频音频等)
import requests
#对请求身份进行伪装
requests.get(‘https://www.doutula.com/article/list/?page=1’)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值