Conditional Random Field 主要是用来识别实体的, 对于算法, 这篇文章有详细的介绍, 现在没时间去完全弄懂, 只能提下应用了.
在命名实体的识别上,CRF通过分析已知的输入序列,预测最可能的输出序列。
已知的输入序列就是想要分析的句子,输出序列就是这个句子里各部分的标记。
例如一句话里:这台笔记本的性能不错,就是散热不太好。
首先会对它进行分词及句子成分分析(POS),标注上词性, 变成: 这/ 台/ 笔记本/ 的/ 性能/ 不错/ 就是/ 散热/ 不/ 太好
接着将其放入按照某特征集训练好的CRF中去,这个特征集可以有多种形式,例如只是 句法特征, 或者 句法加谓词特征等
那么经过CRF识别之后,应该要能标注出这句话描述的主体是: 笔记本, 描述的属性有 性能,还有散热,描述的观点分别是 不错 、不太好。
这样整句话的观点就被标注了出来,标完之后便可以用于评论分析了~~
附上个算法描述时用到的性质:
马尔科夫性质: 一个例子就是青蛙的跳跃,现在处于A荷叶上的青蛙,下一步将要跳到的B荷叶,与之前所走过的路径无关。也即,未来的状态只跟现在的处境有关,而与过去无关。