使用中科院的分词工具ICTCLAS30可以进行名实体识别,方法也很简单就是在分词时候同时进行词性标注,然后把代表人名、地名、时间名、数量的提取出来。
例如:
最近/t 不/d 知道/v 怎么/ryv 的/ude1 ,/wd 脑子/n 总是/d 不/d 好使/a ,/wd 突然/ad 发现/v 最近/t 是/vshi 心/n 、/wn 脑/n 、/wn 人/n 分离/vi 了/y ,/wd 心里/s 感觉/n 的/ude1 ,/wd 脑子/n 里/f 想/v 的/ude1 跟/p 自己/rr 做/v 的/ude1 完全/ad 就/d 不/d 一致/a 。/wj 沈平/nr ,/wd 2009年/t 2010年/t
 
则把“最近/t ”,沈平/nr ,2009年/t 2010年/t 提取出来即可,只要加个判断是否是如下的词性,如果是即为名实体。
nr 人名
nr1 汉语姓氏
nr2 汉语名字
nrj 日语人名
nrf 音译人名
ns 地名
nsf 音译地名
nt 机构团体名
nz 其它专名
t 时间词
s 处所词
 
 
同时该工具还具有提取关键字并计算关键词权重的功能,至于具体的权重计算公式目前还没有搞清楚。