统计自然语言处理基础学习笔记(8)——文本分析

      自然语言处理的目的是为了更好的分析人类语言,让机器能够理解人类的语言。随着互联网的兴起,人们越来越多的参与网络社区活动,人们在网络社区发言的机会越来越多,文本分析的需求也越来越迫切。而依靠人工去分析这样的海量文本,这是不现实,所以只有依靠机器来分析他们。这个领域即为文本分析,或者也称为文本挖掘。

      现有的文本分析方法有两种:

      1. 知识工程方法:借助于专业人员的知识来对某个领域进行挖掘。更细一点可以说是,通过专家对某个领域的知识积累,建立大量的推理规则。当某测试的语料满足这些推理规则,那么就判定该语料属于该领域。语料与特定的规则匹配程度,同样可能需要专家的判断。由于该方法加入了过多的人为判断,准确度在一定程度上得到了提高。但是该方法存在致命的缺陷,由于隔行如隔山,所以某个的领域的规则在一个新的领域可能会完全失效,不具备推广性。再者,专家对于规则的提取有一定的局限性,规则的提取在某些时候很难具体化,因此在存在一些规则不存在规则下的方法的准确性有时间不能得到保证。

       由于规则的提取比较难,现在也已经发展成了对特征进行研究的一门科学,即特征工程。

      2. 统计学习方法:借助于统计概率,通过概率来预测。这种方法由分为监督性和非监督统计学习方法。监督统计方法即需要由人工进行了准确分析的文档作为学习的语料,或者称为训练集,计算从训练集挖掘出一些能够有效分类的规则,借助这些规则来对新的文档进行预测。而非监督统计方法不需要训练集,所以用于计算共有特征、距离等来获得聚类。

     由于 现在网络上语料非常丰富,同时数学理论越来越完善,所以现如今,统计学习方法已经成为了文本分析领域的主流。

     同时也有不少该领域研究人员将两种方法相结合,借助知识工程方法中专家的主观因素,以及统计学习方法的坚实的理论基础,通过明确的评价标准,在实际应用表现比较不错。

没有更多推荐了,返回首页