爬虫系列：数据清洗

爬虫专业户

于 2021-12-28 16:02:58 发布

阅读量2.1k

点赞数

文章标签：爬虫 python 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/oHuangBing/article/details/122195654

版权

上一期我们讲解了使用 Python 读取 CSV、PDF、Word 文档相关内容。

前面我们已经介绍了网络数据采集的一些基础知识，现在我们将进入高级数据采集部分。到目前为止，我们创建的网络爬虫都不是特别给力，如果网络服务器不能立即提供样式规范的信息，爬虫就不能采集正确的数据。如果爬虫只能采集那些显而易见的信息，不经过处理就存储起来，那么迟早要被登录表单、网页交互以及 Javascript 困住手脚。总之，目前爬虫还没有足够的实力去采集各种数据，只能处理那些愿意被采集的信息。

在高级数据采集部分就是要帮你分析原始数据，获取隐藏在数据背后的故事——网站的真实故事其实都隐藏在 Javascript、登录表单和网站反爬措施背后。

数据清洗

到目前为止，我们都没有处理过那些样式不规范的数据，要么使用的是样式规范的数据源，要么就是放弃样式不符合我们预期的数据。但在网络数据采集中，你通常无法对采集的数据样式太挑剔。

由于错误的标点符号、大小写字母不一致、断行和拼写错误等问题，凌乱的数据（dirty data）是网络中的大问题。下面我们就通过工具和技术，通过改变代码的编写方式，帮你从源头控制数据凌乱的问题，并且对已经入库的数据经行清洗。

编写代码清洗数据

和编写异常处理代码一样，你应该学会编写预防型代码来处理意外情况。

在语言学中有一个模型叫 n-gram，表示文本或语言中的 n 个连续的单词组成的序列。再进行自然语言分析

最低0.47元/天解锁文章

爬虫专业户

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
爬虫系列：数据清洗

上一期我们讲解了使用Python 读取 CSV、PDF、Word 文档相关内容。前面我们已经介绍了网络数据采集的一些基础知识，现在我们将进入高级数据采集部分。到目前为止，我们创建的网络爬虫都不是特别给力，如果网络服务器不能立即提供样式规范的信息，爬虫就不能采集正确的数据。如果爬虫只能采集那些显而易见的信息，不经过处理就存储起来，那么迟早要被登录表单、网页交互以及 Javascript 困住手脚。总之，目前爬虫还没有足够的实力去采集各种数据，只能处理那些愿意被采集的信息。在高级数据采集部分就是要帮你.
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。