1.介绍
文本聚类可以将数据(这里即指文本)按照一定规则划分为不同的群组,理想情况下可以从聚类结果中发现一些有趣的模式。不同聚类方法的一致性意义和划分方式也不同。尽管它们有各自的用武之地,但它们无法发现这些群组中任何隐藏结构。
例如,考虑以下国际媒体上的新闻标题,且没有其他的知识来源:
- Amazon’s virtual assistant could witness a homicide in Florida.(亚马逊的虚拟助手可以目睹佛罗里达州的一起凶杀案。)
- Auto sales in Mexico hit low records due to pandemic.(由于大流行,墨西哥的汽车销量创下新低。)
- High-speed trains are close to doubling their speed.(高速列车的速度接近翻倍。)
- Flower market in Mexico closed due to covid-19.(墨西哥花卉市场因 covid-19 而关闭。)
- Coronavirus could last 3 more years in the United States.(冠状病毒在美国可能还会持续 3 年。)
很容易发现:(1) 和 (3) 是关于技术组成的