不同机器学习方法主要区别体现在对已经向量化的数据执行不同的操作,这些方法通常已经比较成熟有效。
对于特征向量进行处理的常见的模型包括一下几类,
有监督的学习方法:隐马尔可夫模型、最大熵模型、支持向量机、条件随机场等
半监督的学习方法:利用标注的小数据集(种子数据)基于规则进行自举学习
例如:条件随机场
在确定了标注的数据集以后,就需要进行特征提取 。由于想要辨别一个词是否是实体,除了需要这个词本身的词义以外,还需要它上下文的词来帮助判断。
因此,条件随机场使用当前位置的前面 n 个字和后面 n 个字地字本身以及这个字的标注信息作为特征提取的模板,如果 n 过大,那么特征向量会很长,模型执行速度会比较慢,导致效率变差。如果 n 太小,可能又无法全面地捕捉到信息。通常来讲将 n 值取为 2~3。
确定了输入的特征向量以后,需要确定条件随机场的模型初始参数。然后就可以对模型进行训练,设定 loss 值,并对其进行最优化。