数据解析说明

最新推荐文章于 2024-08-21 16:56:45 发布

嘿、否定先生

最新推荐文章于 2024-08-21 16:56:45 发布

阅读量67

点赞数

分类专栏：爬虫文章标签： python 开发语言

本文链接：https://blog.csdn.net/qq_52700622/article/details/126937812

版权

爬虫专栏收录该内容

6 篇文章 0 订阅

订阅专栏

三种解析方式

re 正则表达式运行最快
bs4 最简单
xpath 简单流行

在这里插入图片描述

在这里插入图片描述
*？尽可能少的让 * 匹配少的字符

不然会出现几种情况
在这里插入图片描述

re 模块

在这里插入图片描述
正则表达式下面有波浪线如果想没有前面加个r

在这里插入图片描述


import re
# findall 匹配字符串中所有符合正则的内容
lst = re.findall(r"\d+", "我的电话号是12341212,我朋友电话是10086")
print(lst)

在这里插入图片描述

只拿数据。需要.group
在这里插入图片描述

#search 返回的结果是match 对象拿数据需要group 找到一个结果就返回
s = re.search(r"\d+", "我的电话号是12341212,我朋友电话是10086")
print(s.group())


# match 是从头开始匹配
s = re.match(r"\d+", "12341212,我朋友电话是10086")
print(s.group())

预加载

# 预加载
obj = re.compile(r"\d+")
ret = obj.finditer("我的电话号是12341212,我朋友电话是10086")
for i in ret:
    print(i.group())

s = """"
    <div class='jay'><span id = '1'>郭麒麟</span></div>
    <div class='jj'><span id = '2'>宋铁</span></div>
    <div class='jolin'><span id = '3'>大聪明</span></div>
    <div class='sylar'><span id = '4'>范思哲</span></div>
    <div class='tory'><span id = '5'>胡说八道</span></div>
"""
obj = re.compile(r"<div class='.*?'><span id = '\d+'>(?P<wahaha>.*?)</span></div>", re.S)  #re.S 让. 能匹配换行符
rest = obj.finditer(s)
for i in rest:
    print(i.group("wahaha"))