基于语料库的工作
2013年11月20日
21:28
词干化:诸如sit,sits,sat这样的词是否应该被视作相同的词??
一般认为,这个想法在语义学上是有意义的。
一般把这个过程成为词干化
PS:是否应该注意到seated和sit之间的不强的关联性呢??
station和stationary之间的关联性???
非派生词之间也可能有语义上的关联。如英语中的希腊语数词tri qua等词缀。
另外,在中文中一个字本身的意义和字形之间有个晦涩的不十分强的关系。而多个字之间是个很强的类似与派生的组合关系,在处理上和西语不同。