python 爬虫爬取疫情数据,爬虫思路和技术你全都有哈(二、数据清洗及存储)
爬起疫情数据,有两个网址:
1、百度:链接
2、丁香园疫情:链接
在这两个中,丁香园的爬虫相对简单一点,所以今天就展示一哈,百度的,哈哈哈。毕竟挑战一哈自己,看看有啥缺陷。不过确实在找数据方面,存在很多的问题,有很多地方需要学习哈。
但是看完这篇后,你再写丁香园的爬虫代码的时候,就很简单了。
可以自己尝试一下,给自己定个小目标,先来学习百度爬虫代码,课后作业,丁香爬虫代码
今日任务爬虫爬取疫情数据,我们向着百度疫情API伸出了万恶的魔爪哈!!!
目录
本次所用到的库:
- import requests HTTP请求库
- from lxml import etree xpath解析库
- import json json数据格式包
- from pyecharts.charts import Map 绘制中国疫情地图的包
- from pyecharts import options as opts 绘制条形图的库
- import pymysql mysql数据库调用接口
就不仔细讲这些库的作用了,后面代码部分在一起讲给大家听哈。
首先,先说思路哈