爬虫数据解析

Python中常见的解析技术:正则、xpath、BeautifullSoup、json模块、jsonpath
正则:从任意的字符串中查找需要数据
Ⅹpath, BeautifullSoup都是用于处理有层次结构的数据,比如:html,xmlisQn模块与 nonpath:专门用于处理json数据
性能
正则:最快,使用难度高,无需安装,内置re模块
Xpath:是通过c语言实现,速度比较快,使用比较简单,安装比较简单
BeautifullSoup:通过 python实现,速度比较慢,使用简单,安装比较简单
json模块:速度一般,使用非常简单,通过内置的json模块
jsonpath:速度一般,使用简单,安装比较简单

正则表达式(爬虫中常用的两种)
方法 功能 参数说明 返回值类型
在这里插入图片描述

import re

# 从“你好,hello,世界”从字符串中提取中文
text = '你好,hello,世界'

# 通过正则表达式,生成一个pattern对象(只用于匹配中文)
pattern = re.compile(r'[\u4e00-\u9fa5]+')
# 检索字符串,将匹配的中文存入列表
result = pattern.findall(text)
print(result)

xpath语法
1.选取节点
在这里插入图片描述
2、谓语(补充说明节点)
在这里插入图片描述
3、选取未知节点
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值