! , ? 毫无疑问是一个句子的结尾
而. 则不一定是句子的结尾,.可以用于
句子结尾
缩写 如Inc.
数字 如0.4, .02%
因此需要一个分类器来确定.是哪种。 二元分类器(是句子结尾,不是句子结尾)
更复杂一点的决策树特征
带.的单词形态:首字母大写,小写,全是大写,数字
.后面的单词形态:首字母大写,小写,全是大写,数字
数字特征:
带.的单词长度
带.的词作为句子结尾的概率
带.的词作为句子打头的概率
决策树只是一个if else的表达,更有趣的是特征的选取。手工建立决策树结构是非常困难的,往往都是用机器学习的方法