Classification of stroke disease using machine learning algorithms
利用文本挖掘及机器学习方法对中风疾病分类,主要为两类
文本挖掘借助了对病人访谈的文本,为提取关键信息
(1) GENIA Tagger:
GENIA Tagger是一个主要应用于生物医学文本领域的词性标注和浅层语法分析工具,GENIA Tagger在GENIA语料上的词性标记性能F-score达到98%,短语切分(chunking)性能F-score达到93%。
由于非标准的命名习惯,生物医学命名实体识别( biomedical named entityrecognition,Bio-NER )对生物医学文献中的基因、蛋白质、疾病名、药物名、组织名等命名实体进行识别,是进行下一步抽取文本中隐含的语义关系及生物过程进行的背景条件等知识的前提,因此,识别效率将直接影响整个自动获取知识系统的性能。
命名实体识别技术广泛应用于信息抽取、问答系统句法分析、机器翻译等众多领域。在这里我认为有些类似于归类,将不同含义的词语进行整理归类。
(2)词干提取-stemming
即为去除词缀得到词根的过程比如worker-work
三种算法:Porter、Snowball、Lancaster
补充:词形还原即将一个任何形式的词汇转变成一般形式如am、is、 are 转变为be
词干提取和词形还原 将词的各种形态进行 合并,有助于更好地找出关键词。