机器学习实战(一):Document clustering 文档聚类
文档聚类是指根据文档的文本和语义背景将其归入不同的组别。它是一种无监督的技术,因为我们没有文件的标签,它在信息检索和搜索引擎中得到了应用。 为了根据文档的内容进行分类,我决定使用K-手段算法。由于项目是没有标签的,这显然是一个无监督的学习问题,最好的解决方案之一应该是。当然,我们可以使用不同的算法,如高斯混合模型,甚至深度学习方法,如自动编码器。我将使用python与Jupyter笔记本,将代码和结果与文档结合起来。 我在Anaconda环境下开发代码,并使用了以下依赖: 函数parseXML使用
原创
2022-06-15 09:00:00 ·
1384 阅读 ·
0 评论