【1】本算法的目的是从文档中找出主题词,来对文档进行分类。见大数据书P6。
【2】有点像文档的特征选取,选出文档中最具有代表性的词。
【3】理解:第一:主题词确实会在文档中重复出现,但并不是最频繁的。(语气词、停顿词最频繁)
第二:一篇文档的主题词在其他文档中几乎不会出现。
【4】所以挑选主题词,对词语在一篇文档的打分的公式为:
(词在一篇文档中出现的频率)*(词出现文档的文档数越少,值越大的函数)
【5】启示:如果一件事情由两个标准构成,那么可以使这两个标准相乘。
【1】本算法的目的是从文档中找出主题词,来对文档进行分类。见大数据书P6。
【2】有点像文档的特征选取,选出文档中最具有代表性的词。
【3】理解:第一:主题词确实会在文档中重复出现,但并不是最频繁的。(语气词、停顿词最频繁)
第二:一篇文档的主题词在其他文档中几乎不会出现。
【4】所以挑选主题词,对词语在一篇文档的打分的公式为:
(词在一篇文档中出现的频率)*(词出现文档的文档数越少,值越大的函数)
【5】启示:如果一件事情由两个标准构成,那么可以使这两个标准相乘。