原文记录
以下内容按照原文进行理解并部分翻译(看不懂或不理解可以参照:https://blog.csdn.net/qq_39591838/article/details/102489459):
模式:
p为模式,则MD(p)是与D中的p匹配的元素集合,|p|为MD(p)中的元素个数
p的覆盖率为:CD(p,R) = |MD(p) ∩ R| / |R|
p的错误率为:ED(p,R) = |MD(p) - R| / |MD(p)|
对于一组模式P,我们定义:
类似的可以扩展CD(P,R)和ED(P,R) 的公式
模式结构定义:
将模式定义为一个五元组:(order, urlprex, prex, middle, suffix):
如果order为true,则利用作者先,标题后的顺序进行匹配,如果