学习爬虫基础知识与疫情数据爬虫实例：

最新推荐文章于 2022-11-01 10:33:43 发布

Mo_nica_tr

最新推荐文章于 2022-11-01 10:33:43 发布

阅读量193

点赞数

文章标签：爬虫 python

本文链接：https://blog.csdn.net/Mo_nica_tr/article/details/120808045

版权

-- codeing = utf-8 --防止乱码写在开头

爬虫基本步骤：

1. 爬取网页
2.逐一解析数据
3. 保存网页

库：

1.requests发送请求获取响应

2.采用bs4解析页面数据

3.采用正则表达式提取不规则字符串

4.采用json处理json格式数据

5.采用类封装爬虫项目代码

具体库应用：

requests：导入模块；发送请求response（.get);获取响应数据（.text获取响应字符串,注意编码格式encoding(utf-8），避免编码错误可写print（response.content.decode())) URL:"网址" 教材P263

beautiful soup 4:教材P266导入模块；准备文档字符创HTML='''源代码'''；创建对象（soup=BeautifulSoup('html','lxml')

HTML文档：标签的文档结构 < >标签

find/findall：（self，标签名，attrs属性字典，True,text 指定查找文本，）根据属性查找：

Tag对象获取各种内容：

正则表达式： '.'除\n换行符以外的都可以匹配;\转义符；[]与其里面内容匹配；

常用\w这种$%不能匹配

re.findall(pattern正则表达式,string从哪个字符串中查找子串,flags=0匹配模式) 返回string中域pattern匹配的结果列表。flag(re.DOTALL,re.S）匹配所有字符。

正则表达式中r元串的使用：

匹配一个转义符'\'需要写'\\\\'个转义符。

还可解决PEP8规范问题

JSON与PYTHON的相互转化：

1.JSON转化为PYTHON:

json.loads（s)字符串转换

json.load(fp）文件转换

2.PYTHON转化为JSON:

json_str=json.dumps( )

自行操作过程：

import requests #发送请求获取疫情首页
from bs4 import BeautifulSoup#从疫情首页获取疫情数据
import re#从疫情数据中获取json字符串
import json#
response=requests.get('https://ncov.dxy.cn/ncovh5/view/pneumonia?scene=2&clicktime=1579579384&enterid=1579579384&from=timeline&isappinstalled=0')
home_page=response.content.decode()
#print(home_page)
response.encoding="utf-8"
soup=BeautifulSoup(home_page,'lxml')
script=soup.find(attrs={'id':'getAreaStat'})
#print(script)
json_str=re.findall(r'\[.+\]',str(script))[0]
#print(json_str)
last_day_corona_virus=json.loads(json_str)
#print(last_day_corona_virus)
with open('last_day_corona_virus','w')as fp:
    json.dump(last_day_corona_virus,fp,ensure_ascii=False)

soup.find(attrs={'id':'属性’})才能运行

json_str段报错：expected string or bytes-like object，这里pattern匹配的是字符串，但是前面获得的html 是类型为bytes，只要将它转化为string类型就好了，在script前加上str,

Mo_nica_tr

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
学习爬虫基础知识与疫情数据爬虫实例：

-- codeing = utf-8 --防止乱码写在开头爬虫基本步骤：1. 爬取网页 2.逐一解析数据 3. 保存网页库：1.requests发送请求获取响应 2.采用bs4解析页面数据 3.采用正则表达式提取不规则字符串 4.采用json处理json格式数据 5.采用类封装爬虫项目代码具体库...
复制链接

扫一扫