今天在图书馆查了不少资料,感觉没什么特别好的学习途径。
主要通过博客,李航的《统计学习方法》,相关比赛代码来学习。
首先还是介绍几个名词,一个新领域总是有很多新名词。
-
Tokenization:将文本转化为tokens的过程
-
Tokens:在文本里的展示的单词或实体
-
Text object:一个句子、短语、单词或文章
文本分析也好,平时做的数据挖掘也好,开始都是需要数据预处理。
文本分析点数据预处理的过程主要包括以下三个部分:
-
噪声移除
-
词汇规范化
-
对象标准化
这里我们首先介绍噪声移除。
所谓噪声移除就是把对我们来说没有用的冗余tokens去掉,例如语气词。
PS:在情感分析中,语气词、感叹号是应该保留的,因为他们对表示语气程度、感情色彩有一定的贡献和意义
比较常用的方法是通过先设置好噪音词典,然后遍历一下文本,去除那些被词典标注为噪音的tokens。
写一个噪声移除的函数
#先准备一个噪音词典,记录了你要除掉的tokens。
noise_list=['I','you','me','he','her','they','them','a','an','the','...']
def remove_noise(text):
words=re.split('[, ]',text)
remove_noise_words=[word