1 汉语词语对应的英文词,如果汉语词语是变量,则英文词只存储该词语的词性|对应汉语变量的编号;
~~~~~~~~~~~~~~~~在preprocess中实现
2 如果这个实例的汉语部分只含有变量没有现实词语,删;
3 如果这个实例中有汉语标点符号(根据词性?),删。
~~~~~~~~~~~~~~~~~~~~~~在SegmentExtraction中做
附:
标点符号标记如下:
标点符号:
(43)wd
顿号
i.e. 、
(44)wo
标点逗号
i.e. ,
(45)wj
标点句号
i.e. 。 ! ? ; :……
(46)wp
标点破折号
i.e.——
(47)wkl
左括号
i.e. (
(48)wkr
右括号
i.e. )
(49)wsl
左书名号
i.e.《
(50)wsr
右书名号
i.e.》
(51)wyl
左引号
i.e.“
(52)wyr
右引号
i.e. ”