词干提取和词性还原

Classification of stroke disease using machine learning algorithms
利用文本挖掘及机器学习方法对中风疾病分类,主要为两类
文本挖掘借助了对病人访谈的文本,为提取关键信息
(1) GENIA Tagger:
GENIA Tagger是一个主要应用于生物医学文本领域的词性标注和浅层语法分析工具,GENIA Tagger在GENIA语料上的词性标记性能F-score达到98%,短语切分(chunking)性能F-score达到93%。
由于非标准的命名习惯,生物医学命名实体识别( biomedical named entityrecognition,Bio-NER )对生物医学文献中的基因、蛋白质、疾病名、药物名、组织名等命名实体进行识别,是进行下一步抽取文本中隐含的语义关系及生物过程进行的背景条件等知识的前提,因此,识别效率将直接影响整个自动获取知识系统的性能。
命名实体识别技术广泛应用于信息抽取、问答系统句法分析、机器翻译等众多领域。在这里我认为有些类似于归类,将不同含义的词语进行整理归类。
(2)词干提取-stemming
即为去除词缀得到词根的过程比如worker-work
三种算法:Porter、Snowball、Lancaster
补充:词形还原即将一个任何形式的词汇转变成一般形式如am、is、 are 转变为be
词干提取和词形还原 将词的各种形态进行 合并,有助于更好地找出关键词。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值