爬虫基础中的基础篇——篇01

首先说一下环境部分

我的环境:

python3.7
Anconda虚拟环境
所应用库:pandas,json,requests,time(time库因为要爬取数据类型而用的,非必须库)

环境不同不会影响太大(似乎基本没啥影响)

爬虫开始

这里只说一些基础中的基础,适合python没怎么用过的小白食用。
费话不多少,开始…

首先,爬虫就是伪装成浏览器去看数据,并把看到的数据记录下来,然后把记录的数据下载下来。这就叫爬数据,下面直接讲操作:

import pandas as pd
import requests
import json
import time

headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36'}

url = 'https://c.m.163.com/ug/api/wuhan/app/data/list-total'
key = requests.get(url, headers=headers)

1、headers
这个headers就是我们伪装成的浏览器,那你们应该问了,这后面一大长串字符咋来的,举个例子如果你要爬这个网页中的数据:

https://wp.m.163.com/163/page/news/virus_report/index.html?nw=1&anw=1

这是网易新闻网页
如果你要伪装成谷歌浏览器,那么复制网址到谷歌浏览器,摁F12,会有以下界面:
在这里插入图片描述
①选中Network
②再选中XHR
③摁F5刷新
④会出来name之下有一系列list,那个是数据存储地址,通过查看发现在第二个里面有我们想要的数据
在这里插入图片描述
拉到headers最下面
在这里插入图片描述
这个东西复制改动一下(记得加引号*2)
那么那个伪装头就做好了(我们伪装的浏览器就弄好了)
2、url
在同一页
在这里插入图片描述
可以看到url 把‘?t=317…’删了复制到url代码就可以了(‘记得引号’)

key = requests.get(url, headers=headers)

如果把key输出等于200(上面图中绿色小点后面的数字)那么就说明爬虫武器做好了,可以进网站去爬数据了。
3、爬取数据
通过网页可以发现数据是字典类型,那么我们用

data_json = json.loads(r.text)
data = data_json['data']

后面字典数据具体怎么筛选就是python基本操作了,其他大神肯定写了很多,我就不多说了。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值