这篇主要讲一下如何将微博转化成特征向量。
一、自然语言处理
1、简介
先从自然语言说起吧,自然语言包括自然语言理解和自然语言生成,前者是要使计算机能够理解自然语言文本的意义,而后者是要让计算机以自然语言文本来表达给定的意图。
但是,完成这些是非常困难的,困难之处在于自然语言文本和对话的各个层次上广泛存在各种各样的歧义性或多义性。同时,自然语言的形式与意义之间多对多的关系也增加了一定的难度,也就是说,一个单词可能有多个意义,反过来,一个意义也可以由很多个单词来表示。
因此,自然语言处理的任务就是把带有潜在歧义的自然语言输入转化成某种无歧义的计算机内部表示。
2、语料库
自然语言处理数据的基础就是语料库。
3、处理工具
- Fudan NLP
FudanNLP主要是为中文自然语言处理而开发的工具包,也包含为实现这些任务的机器学习算法和数据集。本工具包及其包含数据集使用LGPL3.0许可证。开发语言为Java。 - 语言技术平台 LTP
语言技术平台(Language Technology Platform,LTP)是哈工大社会计算与信息检索研究中心历时十年开发的一整套中文语言处理系统。LTP制定了基于XML的语言处理结果表示,并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块(包括词法、句法、语义等6项中文处理核心技术),以及基于动态链接库(Dynamic Link Library, DLL)的应用程序接口&