文本挖掘--LTP-cloud 分词

http://www.ltp-cloud.com/document/

语言技术平台(Language Technology Platform,LTP)是哈工大社会计算与信息检索研究中心,历时十年时间研究得一整套开放的中文自然语言处理系统。 LTP 基于 XML 的语言处理结果表示,并在此基础上提供了一整套自底向上的丰富、高效、高精度的中文自然语言处理模块 ,其中包括词法、句法、语义等 5项中文处理核心技术,应用程序接口,可视化工具,以及能够以网络服务使用的语言技术。


1、中文分词(Word Segmentation,WS)指的是将文本切分成词序列。 这也是我们要用的功能,分词也是是信息检索、文本分类等文本挖掘处理任务的基础。在分词过程中,切分歧义是主要难题。
  LTP 的分词模块基于机器学习框架有较多的训练语料,较好地解决了歧义的问题,另外模型融入了词典策略,使得LTP 的分词模块可以简单的扩展新词。
2、词性标注(Part-of-speech Tagging, POS)是标注句子中每个词的词性。在中文语法中,词性类别可能是名词、动词、形容词或其他。词性是对词的一种泛化特征,而且在中文语法中,同一词的不同词性也可能会有不同的含义,在语言识别、句法分析、信息抽取等任务中有重要作用。 

3、命名实体识别(Named Entity Recognition, NER)是在文本中识别人名、地名、机构名等实体的名称。命名实体识别对于挖掘文本中的实体进而对其进行分析有很重要的作用。同时,LTP 也支持用户对实体类型的拓展

4、依存语法(Dependency Parsing, DP)通过分析语言单位内各成分之间的依存关系来揭示其句法结构。直观的说,就是识别句子中的“主谓宾”、“定状补”等语法成分,并分析各成分之间的关系。

5、语义角色标注(Semantic Role Labeling, SRL)是一种浅层的语义分析技术,这是语义理解的基础,可以标注某些短语为给定谓词的语义角色,如施事、受事、时间和地点等。其能够对智能问答系统、信息的抽取和机器翻译等应用提供支持。
 
 


  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值