爬虫：数据清洗与提取

31GkoldsBoyNie

已于 2022-01-22 14:22:15 修改

阅读量974

点赞数

文章标签：爬虫 xpath python

于 2022-01-22 14:18:45 首次发布

本文链接：https://blog.csdn.net/Bocker_Will/article/details/122629555

版权

本文介绍了爬虫中数据清洗和提取的重要步骤。通过正则表达式配合re模块，详细展示了如何提取HTML文件中的Email和手机号。接着，讲解了XPath语法及其在Python中lxml库的应用，以及如何利用XPath进行数据查询。此外，还提及了JsonPath的四个常用命令：dumps、loads、dump和load，用于JSON数据的处理。

摘要由CSDN通过智能技术生成

1.正则表达式
在这里插入图片描述

2. re模块使用案例
例：提取 index.html 里的Eamil和手机号

片描述
在这里插入图片描述

# 导入re模块
import re

with open('index.html','r',encoding='utf-8') as f:  # 读取index文件

    html = f.read()     # 返回读取文件
    
    # re.sub('正则表达式','替换成的字符串','被匹配的字符串')
    html = re.sub('\n','',html