@文本处理的方法
当下的一些网络文本分析的难点:
1)数据是实时动态变化的,比如一些博客、评论、聊天信息等刷新速度特别快,并且数量庞大
2)存在这一些短文本的文本数量较少,包含的有效信息也比较小,但是特征集的维数很高,这就导致了很难从中抽取准确的特征来进行文本分类。
3)一些新兴的网络词,比如童鞋、屌丝、v587等,包含的文本噪声信息较多。
文本的打标
即标识出那些比较重要性的关键词
概念:词频-逆向文件频率(TF-IDF)
TF-IDF=TF*IDF
TF:代表的是单个词在对应文章中出现的频率
IDF:代表的是某个词语T的文章占总文章集合的百分比
目前的分词方法
1.基于字符串匹配和规则的分词方法(机械分词法)
与字典的进行匹配:存在的问题是对词典的依赖性较大,分词的效果的词义偏差较大,不能识别一些新的登陆词
其中按照是否与词性标注相结合,又可以分为单纯分词方法和与标注相结合的方法。
2.基于统计的分词方法:只需要对语料中的字信息进行统计,不需要切分词典。
主要常用的统计量和统计模型:互信息、最大熵模型、隐马尔科夫模型等。
存在的问题是:仍然存在着很大的分词歧义。
利用词和词之前的联合出现概率作为分词判断的信息。
3.基于理解的分词方法
基本思想是:在分词的同时进行语法、语义分析、利用句法信息和语义信息来解决歧义的现象。
a.基于隐马尔可夫模型的词标注中文分词法
b.基于层叠的因马尔科夫模型的汉语词法分析方法
c.神经网络方法
d.