python之爬虫

python:爬虫思路,借鉴文章

一、明确需求

  • 首先我们要明白我们爬取的具体是什么内容,比如爬取文章标题,爬取图片,爬取实时新闻

二、建立request请求

  • 1.使用的是哪一种请求方式,get post等
  • 2.获取请求URL,确定请求连接
  • 3.拼接头部信息,User-Agent,Host,Cookies等
  • 4.设置请求体,即请求时额外携带的数据,比如表单提交时的表单数据。

三、获取数据

  • 获取请求响应状态,比如200、404、301、502等;

四、解析数据

  • 1、使用json解析数据;
  • 2、使用正则表达式提取数据;
  • 3、使用BeautifulSoup库来处理数据;
  • 4、使用PyQuery来解析数据;

五、存储数据

  • 1、可使用纯文本、json、xml等存储;
  • 2、使用关系型数据库存储,如mysql、oracle等;
  • 3、使用非关系型数据库存储,如mongodb、redis等;
  • 4、图片、视频等可直接保存。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值