NLP
若如初见kk
人生苦短,我用python!
展开
-
Python使用collections模块统计单词频率(出现次数)
collections模块简介1.collections模块1.1 Counter计数器,主要用来记录每一个元素出现的次数1.2 namedtuple生成可以使用名字来访问元素内容的tuple1.3 deque双端队列,可以快速的在两端追加和推出对象1.4 defalutdict带有默认值的字典1.collections模块在内置数据类型(dict、list、set、tuple)的基础上,collections模块还提供了几个额外的数据类型:Counter、deque、defaultdict、named原创 2020-09-21 22:52:49 · 1696 阅读 · 0 评论 -
Python中利用正则表达式做数据清洗(re)
目录1.常用正则表达式Python中常用正则表达式2.正则表达式做数据清洗2.1 从网页HTML标签中提取文本2.2 去掉英文文章中标点符号,提取词汇2.3 提取以.com结尾的邮箱1.常用正则表达式Python中常用正则表达式2.正则表达式做数据清洗2.1 从网页HTML标签中提取文本import retext = "<div><p>\n你好\nPython:</p><p>Python是一种跨平台的计算机程序设计语言。 </p><原创 2020-09-21 22:13:14 · 5551 阅读 · 0 评论 -
Python将Word文本转化为字符串(str)
# 1.docx模块的安装### [Python中安装docx模块及报错解决方法](https://blog.csdn.net/Artificial_idiots/article/details/108396112)# 2.Word文本转化为字符串原创 2020-09-21 21:35:49 · 4316 阅读 · 10 评论