实战讲解四种不同爬虫解析数据方法，必须掌握！

最新推荐文章于 2024-04-11 15:36:01 发布

lyc2016012170

最新推荐文章于 2024-04-11 15:36:01 发布

阅读量1.4k

点赞数 4

文章标签：数据可视化 xpath html svg 数据挖掘

本文链接：https://blog.csdn.net/lyc2016012170/article/details/115191976

版权

前言

爬虫解析数据有很多种，爬取不同的数据，返回的数据类型不一样，有html、json、xml、文本（字符串）等多种格式！

掌握这四种解析数据的方式，无论什么样的数据格式都可以轻松应对处理。

这四种方式分别是：1.xpath、2.bs4、3.json、4.正则。

下面以实战方式讲解这四种技术如何使用！！！

Xpath

1.请求数据

请求链接如下，以小说网站：新笔趣阁，为案例进行讲解

http://www.xbiquge.la/xuanhuanxiaoshuo/

导入相应的库

import requests
from lxml import etree

开始请求数据

headers = {
            'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36',
        }
url="http://www.xbiquge.la/xuanhuanxiaoshuo/"
res = requests.get(url,headers=headers)
res.encoding = 'utf-8'
text = res.text

2.解析数据

比如我们要获取下面这些数据（小说名称）

分析网页标签

数据在class="l"-> ul ->li标签中

selector = etree.HTML(text)
list = selector.xpath('//*[@class="l"]/ul/li')

解析li中数据

可以看到，数据在li->span->a 标签中

for i in list:
    title = i.xpath('.//span/a/text()')
    href = i.xpath('.//span/a/@href')
    print(title)
    print(href)
    print("--------")

Bs4

1.请求数据

请求链接如下，同样以小说网站：新笔趣阁，为案例进行讲解

http://www.xbiquge.la/xuanhuanxiaoshuo/

导入相应的库

import requests
from bs4 import BeautifulSoup

开始请求数据

headers = {
            'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36',
        }
url="http://www.xbiquge.la/xuanhuanxiaoshuo/"
res = requests.get(url,headers=headers)
res.encoding = 'utf-8'
text = res.text

2.解析数据

比如我们要获取下面这些数据（小说名称）

分析网页标签

可以看到，数据在span中（class="s2") 标签中

法一

###法一
list = soup.find_all(attrs={'class':'s2'})
for i in list:
    print(i.a.get_text())
    print(i.a.get("href"))
    print("--------")
print(len(list))

法二

####法二
# 获取所有的链接
all_link = [(link.a['href'], link.a.get_text()) for link in soup.find_all('li')]
for i in all_link:
   print(i)

json

1.请求数据

请求链接如下，获取ip定位，为案例进行讲解

https://restapi.amap.com/v3/ip?key=0113a13c88697dcea6a445584d535837&ip=123.123.123.123

导入相应的库

import requests
import json

开始请求数据

ip = "123.123.123.123"
url="https://restapi.amap.com/v3/ip?key=0113a13c88697dcea6a445584d535837&ip="+str(ip)
res = requests.get(url,headers=headers)
res.encoding = 'utf-8'
text = res.text

2.解析数据

比如我们要获取下面这些数据（省份和城市）

text = res.text
print(text)
##text不是json类型的话，则转为json类型
text = json.loads(text)
print("省份="+text['province']+",城市="+text['city'])

正则表达式

1.请求数据

请求链接如下，以小说网站：新笔趣阁，为案例进行讲解

http://www.xbiquge.la/xuanhuanxiaoshuo/

导入相应的库

import requests
import re

开始请求数据

headers = {
            'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36',
        }
url="http://www.xbiquge.la/xuanhuanxiaoshuo/"
res = requests.get(url,headers=headers)
res.encoding = 'utf-8'
text = res.text

2.解析数据

比如我们要获取下面这些数据（小说名称）

分析网页html

可以看到，数据在li->span->a 标签中，a标签前有“《”，后有“》”

pattern = re.compile('《.*?》')
items = re.findall(pattern, text)

for i in items:
    print(i)

总结

1.以实战方式讲解了四种不同解析数据的方式

2.讲解过程一步一步截图说明，方便小白入门学习！

3.本文干货满满，推荐收藏！收藏！收藏！

如果大家对本文代码源码感兴趣，扫码关注『Python爬虫数据分析挖掘』后台回复：四种解析 ，获取完整代码！

最后说一声：原创不易，求给个赞、在看、评论

------------- 推荐阅读 -------------

爬虫入门篇

1.今天只分享python、爬虫入门级学习资料

2.以某乎为实战案例，教你用Python爬取手机App数据

3.教你用python爬取『京东』商品数据，原来这么简单！

4.以『赘婿』为实战案例，手把手教会你用python爬取『爱奇艺』视频弹幕

5.python爬取44130条用户观影数据，分析挖掘用户与电影之间的隐藏信息！

6.基金这么赚钱！！编程实现基金从采集到分析通用模板！（白酒为例）

7.我爬取了爬虫岗位薪资，分析后发现爬虫真香

8.竟然如此简单！输入明星名字就可以直接爬取高清图片

9.pyhton爬取爱豆（李易峰）微博评论（附源码）

10.快手解析视频真实链接（爬取快手视频）

爬虫框架篇

1.以『B站』为实战案例！手把手教你掌握爬虫必备框架『Scrapy』

2.爬取1907条『课程学习』数据，分析哪类学习资源最受大学生青睐

爬虫反爬篇

1.爬虫遇到反爬机制怎么办? 看看我是如何解决的！

2.python实战破解『梨视频』反爬机制，轻松实现批量视频下载！

3.『异步反爬』别再说自己不会爬取『抖音』视频了！

可视化篇

1.爬取3w条『各种品牌』笔记本电脑数据，统计分析并进行可视化展示！真好看~

2.python爬取7w+『赘婿』弹幕，发现弹幕比剧还精彩！

3.爬取1907条『课程学习』数据，分析哪类学习资源最受大学生青睐

4.python爬取各类基金数据，以『动图可视化』方式展示基金的涨跌情况

5.python爬取『大年初一』热映电影，以『可视化及词云秀』方式带你了解热映电影

6.python爬取淘宝全部『螺蛳粉』数据，看看你真的了解螺蛳粉吗？

7.爬取淘宝热卖商品并可视化分析，看看大家都喜欢买什么！

8.王者荣耀白晶晶皮肤1小时销量突破千万！分析网友评论我发现了原因

9.分析各类基金近一年『日涨幅』流水线动态图！哭了，真是跌妈不认！

10.分析B站《送你一朵小红花》弹幕评论

11.我爬取了爬虫岗位薪资，分析后发现爬虫真香

12.python实现在线微博数据可视化

python工具篇

1.教你用python爬虫下载1w+『ppt模板』,再也不用付费去购买啦！

2.python爬取下载m3u8加密视频，原来这么简单！

3.详细实战教程！部署Flask网站+域名访问+免费https证书

4.花一天时间做了一个福利资源网站！免费分享给大家

5.python实现四种出行路线规划（公交、步行、驾车、骑行）

6.35行代码下载任意网页的图片

7.python窃取摄像头照片（摄像头拍照+邮箱发送+打包exe）

8.30行爬虫代码实现中英互译

9.教你搭建一个花卉识别系统(超级简单)

lyc2016012170

关注

4
点赞
踩
21

收藏

觉得还不错? 一键收藏
打赏
0
评论
实战讲解四种不同爬虫解析数据方法，必须掌握！

1前言爬虫解析数据有很多种，爬取不同的数据，返回的数据类型不一样，有html、json、xml、文本（字符串）等多种格式！掌握这四种解析数据的方式，无论什么样的数据格式都可以轻松应对处理。...
复制链接

扫一扫