关键词推荐的方法:
(1)meta tag spider:
通过抓取各种网站的meta数据,把这些mata数据综合在一起,做关键词推荐。
这种方法适合于没有日志的初始网站。
(2)google adwords tool (共同的广告点击):
通过 query log 挖掘关键词。当搜索关键词“A”出了广告x,那么其他关键词也能够出广告x,
那么这些关键词是有相关性的。这表示日志里面的共现关系。这种方法可以得到大量的相关词关键词,但是不一定是
非常相关的。频率高的词容易出现在广告商的日志中,但是这些关键词比较贵。而且已经被广告主熟悉的一些词了。
注意乱买词的问题。
有多个主题的时候,可能这些query的相关性不是非常强。
已有的技术没有考虑到语义关系。稀有的相关词经常不能包含在输入query term中,所有经常被忽略。
TermsNet方法不需要query log,它从短语语料中通过语义抓取词,并且推荐新的短语。这种方法容易适应趋势。新
的短语能够见到的加入到一只的图中,并且可以用于查询和推荐。
TermsNet 能够动态添加新词到图里面,并且快速的找到相关词。
每个term,从点击日志中获取想top 50 个网页。从网页前后获取相关的词。
B 到A 的相关性:是包含A文档中,包含了B的频次。
再一次解释了准确率、召回率、平均不显著性:
F值是 准确率和召回率之间的调和值。最大化准确率P,召回率R,非观察率 N。