![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
文本预处理
郭畅小渣渣
这个作者很懒,什么都没留下…
展开
-
文本预处理 |(7)数据不平衡的处理
到了这一章,里面的东西就更看不懂了,所以这一节,就做一个简单的大纲,以后慢慢学习再慢慢完善常见方法1.改变性能评估方式2.为模型添加特殊的惩罚/代价机制3.数据重采样(Re-sampling)4.合成样本5.使用k-fold交叉验证这个简单就是将原始数据划分为K个部分,选择其中一个作为测试数据集,剩余的作为训练数据集。交叉验证就是,将以上过程重复K次,最后取平均结果。但是这个和处理数据不平衡有什么关系呢?6.采用不同的分类器最后作者说,对于不平衡数据的处理本身便.原创 2020-11-23 01:31:58 · 439 阅读 · 0 评论 -
文本预处理 |(6)关键词提取
(这部分,因为自己的知识不足,实在是没有看得太懂,无奈强迫症,求一个完整,所以还是写出来了!)下面我们在来讲关键词提取,其实关键词提取可以当作获取特征的一种方式。具体获得关键词的方式有很多种,我们依次介绍一下:1 基于特征统计词频:一般来说,一个词在文本中出现次数越多,表明作者越想表达这个词,因此可以通过对词频的简单统计便可以评估出词语的重要性。 TF-IDF(term frequency–inverse document frequency):综合考虑了词在文本中的词频以及普遍重要性,直观地原创 2020-11-23 01:13:11 · 1204 阅读 · 0 评论 -
文本预处理 | (5)文本纠错的简单案例
上一节我们留下了,一个小问题,就是如何对给定的英文文本语料,来进行拼写纠错。首先,我们给定一个语料文本“beyes_train_text.txt”,然后统计语料中各单词的出现情况。import re,collections# 提取语料库中的所有单词并且转化为小写def words(text): return re.findall("[a-z]+", text.lower())# 若单词不在语料库中,默认词频为1,避免先验概率为0的情况def train(features):原创 2020-11-23 00:57:54 · 1026 阅读 · 0 评论 -
文本预处理 |(4)文本纠错
一般有两种文本纠错的类型:1.Non-word拼写错误首先看一下Non-word的拼写错误,这种错误表示此词汇本身在字典中不存在,比如把“要求”误写为“药求”,把“correction”误拼写为“corrction”。寻找这种错误很简单,例如分完词以后找到哪个词在词典中不存在,那么这个词就可能是错误拼出来的的词。操作步骤• 找到候选词• 接着基于特定算法找出与错拼词关联最高的一个或多个单词作为纠正选项如何确定候选项呢?• 英文:编辑距离• 中文:拼写相近、字形相近如何找出最关联项原创 2020-11-23 00:38:30 · 1098 阅读 · 0 评论 -
文本预处理 | (3)分词
一、分词的几大难点1.未登录词的识别由于新词的不断出现,不存在一个词表能够收录所有的词汇。所以此时就无法将这个词给识别出来。2.切词产生歧义比如“羽毛球拍卖完了”就存在两种分词的方式:一种是,羽毛球/拍卖/完了;另一种是,羽毛球拍/卖/完了3.词的界限无统一标准比如“自然语言处理”可以看做一个词语,也可以看三个词语“自然”,“语言”,“处理”二、常用的分词方法1.机械分词法基于词典资源的一种分词方法,对文本中的字符串进行匹配,若能在词典中找到,则识别出该词。一般分为.原创 2020-11-22 23:38:30 · 1266 阅读 · 0 评论 -
文本预处理 | (2)语义分析
4.1.2 语义分析词性标注词性标注的工具有很多,在中文中jieba,哈工大的LTP,他们各自的词性标注的标准都不一样,使用方法也各不相同,输出的形式也不相同,暂时笔者只接触了这这两种工具的分词以及词性标注。(后期补代码,和教程地址)命名实体识别(Named-entity recognition,NER):目的在于识别文本中具有特定意义的实体,比如:人名,地点名,组织机构名,时间等。(笔者暂时未接触中文的命名实体识别的工具,后补!!!)from nltk import word_.原创 2020-11-22 21:28:51 · 576 阅读 · 1 评论 -
文本预处理 | (1)文本规范化
参考书籍胡盼盼《自然语言处理从入门到实战》4.1.1文本规范化大写字母转小写# 输入文本input_str = "The 5 biggest countries by population in 2019 are China, India, United States, Indonesia, and Brazil."# 转为小写output_str = input_str.lower()print(output_str)# 输出结果为:# the 5 biggest countri原创 2020-11-22 21:18:08 · 448 阅读 · 0 评论