![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
那个叫马尔的大夫
山海有的是时间
展开
-
自然语言处理:词性标注
步骤一:导入 jieba 库,对文本内容进行分词处理。导入 jieba 库的 posseg 模块,对文本进行分词标注。步骤二:词性统计: 导入 pandas 库,提取出标注返回结果的每项元素的 flag 部分,即词性部分,随后 用 pandas 中的 value_counts 进行词性统计,并用 head()函数返回出现最多的前十行。 词性种类统计: 将原标记数据进行去重处理,再遍历去重后的数据,此时若同样的词出现 n 次,即 为词一样但对应词性不一样,也就是说一个词包原创 2022-04-26 09:48:48 · 597 阅读 · 0 评论 -
用逆向最大匹配法实现分词处理(python)
流程图:#逆向最大匹配classIMM(object):def__init__(self,dic_path):self.dictionary=set() #定义集合self.maximum=0 #定义最大匹配长度withopen(dic_path,'r',encoding='utf-8')asf: #将存储路径中的语料库打开forlineinf:...原创 2022-04-08 13:51:54 · 1409 阅读 · 0 评论 -
正则表达式的设计与应用
原创 2022-03-30 12:39:29 · 423 阅读 · 0 评论