1 关于语素
百度百科的解释:
语法单位有大有小,最大的语法单位是句子,比句子小的语法单位,依次是短语、词、语素。人类的语言是有声音、有意义的,是语音和语义的结合体,这便是语法单位基本的特点。语素是最小的语法单位,也就是最小的语音、语义结合体。 所有我的理解是,分词后的各个词都是语素。语素有名词性语素、动词性语素等类别。
2 ICTCLAS 词性列表
注: ICTCLAS——中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。先后精心打造五年,内核升级6次,目前已经升级到了ICTCLAS3.0。ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M,是当前世界上最好的汉语词法分析器。
POS = {
"n": { # 1. 名词 (1个一类,7个二类,5个三类)
"n": "名词",
"nr": "人名",
"nr1": "汉语姓氏",
"nr2": "汉语名字",
"nrj": "日语人名",
"nrf": "音译人名",
"ns": "地名",
"nsf": "音译地名",
"nt": "机构团体名",
"nz": "其它专名",
"nl": "名词性惯用语",
"ng": "名词性语素"
},
"t": { # 2. 时间词(1个一类,1个二类)
"t": "时间词",
"tg": "时间词性语素"
},
"s": { # 3. 处所词(1个一类)
"s": "处所词"
},
"f": { # 4. 方位词(1个一类)
"f": "方位词"
},
"v": { # 5. 动词(1个一类,9个二类)
"v": "动词",
"vd": "副动词",
"vn