python网络爬虫-数据标准化处理

最新推荐文章于 2024-02-20 16:21:21 发布

VIP文章 perfecttshoot

最新推荐文章于 2024-02-20 16:21:21 发布

阅读量1.6k

点赞数 2

分类专栏： python网络爬虫文章标签： python网络爬虫 2-gram自然语言处理数据标准化处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wanght89/article/details/78189417

版权

在前面的n-gram代码示例中，有一个很明显的问题，就是包含太多重复的2-gram序列。程序把每个2-gram序列都加入了列表，没有统计序列的频率。掌握2-gram序列的频率，而不是知道某个序列是否已经存在，这不仅有助于对比不同的数据清洗和数据标准化算法的效果。如果数据标准化成功了，那么唯一的n-gram序列数量就会减少，而n-gram序列的总数（任何一个n-gram序列和与之重复的序列被看成一个n-gram序列）不变。也就是说，同样数量的n-gram序列，经过去重之后“容量”（bucket）会减少。这样就可以在前面的代码中增加标准化特征。

不过Python字典是无序的，不能像数组一样直接对n-gram序列频率进行排序。字典内部元素的位置不是固定的，排序之后再次使用时还是会变化，除非你把排序过的字段的值复制到其他类型中进行排序。在Python的collections库里面有一个OrderedDict可以解决这个问题：

改进后的程序代码如下：

from urllib.request import urlopen
from bs4 import BeautifulSoup
from collections import OrderedDict

最低0.47元/天解锁文章

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python网络爬虫-数据标准化处理

讲述了如何对数据进行标准化处理，以及一些常见的需要标准化的脏数据类型介绍
复制链接

扫一扫

专栏目录

博客等级

码龄11年

105
原创

284
点赞

310
收藏

115
粉丝

关注

私信

热门文章

分类专栏

Flex开发 3篇
Flex 3篇
Ruby
Ruby&MongoDB 23篇
MongoDB 15篇
python网络爬虫 37篇
Linux 4篇
python 2篇
自然语言处理 5篇
Spring Boot
机器学习 7篇
区跨链&IPFS 1篇
系统架构 1篇
面试 5篇
Netty 2篇
设计模式 3篇
Nginx 1篇

最新评论

java异常-父类异常与子类异常之间的捕获关系
Zpc_12345: 父类抛出的异常，子类异常去捕获编译是通不过的，除非你去throws去抛出，才能通过编译
java异常-父类异常与子类异常之间的捕获关系
赫鲁小玉米: catch中的异常类型如果满足子父类关系，则要求子类一定声明在父类的上面。因此：第一部分的代码可以正常捕获；而第二部分父类异常在子类异常前面catch了，所以子类异常不能捕获；最后一段代码Exception是Sneeze的父类，写在了最后，故可以捕获到。
java异常-父类异常与子类异常之间的捕获关系
么么哈: 范围大的异常要放在后面范围小的要放在前面
python自然语言处理-使用NLTK做统计分析
wl2020mxxb: 请问您解决了吗
python网络爬虫文档读取-微软Word文档和.docx
Ai_Zbh: textString=wordObj.findAll("w:t")，获取到的textString是空列表[ ] ,这是怎么回事大佬

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。