基于
NLTK
的中文文本内容抽取方法①
李
晨,
刘卫国
【摘
要】
摘
要
:
NLTK
是
Python
中用于自然语言处理的第三方模块,
但处理
中文文本具有一定局限性
.
利用
NLTK
对中文文本中的信息内容进行抽取与挖掘,
采用同语境词提取、双连词搭配提取、概率统计以及篇章分析等方法,
得到一
个适用于中文文本的
NLTK
文本内容抽取框架,
及其具体的实现方法
.
经实证
分析表明,
在抽取结果中可以找到反映文本特点的语料内容,
得到抽取结果与
文本主题具有较强相关性的结论
.
【期刊名称】
计算机系统应用
【年
(
卷
),
期】
2019(028)001
【总页数】
4
【关键词】
关键词
:
自然语言处理;
中文文本;
自然语言处理工具包
引用格式
:
李晨,刘卫国
.
基于
NLTK
的中文文本内容抽取方法
.