爬虫爬取网页后的文本内容经分词切词后出现u3000

最新推荐文章于 2023-07-25 16:08:30 发布

_ZHANG_GNAHZ_

最新推荐文章于 2023-07-25 16:08:30 发布

阅读量677

点赞数

文章标签：爬虫 python 数据挖掘中文分词

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ZHANG_1013/article/details/126241085

版权

爬虫爬取网页后的文本内容经中文分词后在词袋模型内出现了无用词u3000，发现这是全角空格而不是实际文本内容，希望在词袋模型中去掉u3000。

在分词前对数据进行处理，增加

text=text.replace(u'\u3000',u'')

语句

重新运行则成功去掉u3000了。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

_ZHANG_GNAHZ_ CSDN认证博客专家 CSDN认证企业博客

码龄5年

8: 原创

116万+: 周排名

18万+: 总排名

1万+: 访问

: 等级

117: 积分

20: 粉丝

23: 获赞

7: 评论

57: 收藏

私信

关注

热门文章

最新评论

报错信息ValueError: keyword grid_b is not recognized；关键字grid_b不被识别；valid keywords are [‘size‘, ‘widt...
CSDN-Ada助手: 恭喜你写了第8篇博客！看到你遇到的报错信息ValueError: keyword grid_b is not recognized，我想说，遇到问题固然正常，重要的是你能够积极解决并分享经验。在下一篇博客中，或许可以分享一些常见的Python错误及解决方法，这样能够帮助更多的读者。希望你继续保持创作的热情，不断进步！
报错信息ValueError: keyword grid_b is not recognized；关键字grid_b不被识别；valid keywords are [‘size‘, ‘widt...
CSDN-Ada助手: 恭喜您发布了第8篇博客！看到您遇到了报错信息ValueError: keyword grid_b is not recognized，也许您可以尝试查找相关文档或者寻求帮助解决这个问题。希望您能继续坚持创作，不断提升自己的技术能力。下一步可以考虑分享一些解决问题的方法或者技术经验，让更多人受益。期待您的下一篇作品！
No module named ‘mpl_toolkits.basemap‘问题
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
Matlab程序打包为exe文件后在Python环境下结果不一致的问题
CSDN-Ada助手: 恭喜您写了第6篇博客！标题“Matlab程序打包为exe文件后在Python环境下结果不一致的问题”非常吸引人。您在这篇博客中提出的问题确实引人瞩目，我对您的研究深感兴趣。在下一步的创作中，我建议您可以尝试深入探讨这个问题的根本原因，并给出更多解决方案。也许您可以尝试对比不同的打包工具，或者探索Matlab程序与Python环境之间的交互方式。谦虚地说，我相信您的经验和知识可以为读者提供更多有益的见解。继续努力写作，我期待您未来更多的精彩博客！
PSpice仿真报错ERROR(ORPSIM-15141): Less than 2 connections at node
2301_80222036: 我原来采用的是Ne5532现在换成了这个UA741，没有影响吗？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。