sklearn 相似度矩阵_使用python+sklearn实现无监督降维

如果您的特征数量很多,则在进行有监督步骤之前先通过无监督步骤来减少特征数量是很有用。许多 无监督学习 方法都实现了可用于降低维度的 transform 方法。下面,我们讨论已经被大量使用的无监督降维模式的两个具体示例。 管道(Pipelining) 无监督的数据降维和监督估计器可以一步一步地链接在一起。请参阅 管道:链式估计器 。

1. PCA:主成分分析

decomposition.PCA 可以寻找能够很好地捕捉原始特征方差的一个特征组合。请参阅 信号分量分解(矩阵因子分解问题) 。 示例
  • 使用特征脸和SVM进行脸部识别

2.随机投影

random_projection 提供了几种通过随机投影进行数据降维的工具。请参阅文档的相关部分: 随机投影 。 示例
  • 使用随机投影进行Johnson-Lindenstrauss边界(bound)嵌入

3.特征集聚

cluster.FeatureAgglomeration 类应用 层次聚类(Hierarchical clustering) 来将相似的特征进行分组。 示例
  • 特征集聚与单变量选择
  • 特征集聚
特征缩放(Feature scaling) 请注意,如果特征具有非常不同的缩放或统计属性,则 cluster.FeatureAgglomeration 类可能无法捕获相关特征之间的联系。在这种情况下,使用 preprocessing.StandardScaler 类可能很有用。

文壹由“伴编辑器”提供技术支持

☆☆☆为方便大家查阅,小编已将scikit-learn学习路线专栏 文章统一整理到公众号底部菜单栏,同步更新中,关注公众号,点击左下方“系列文章”,如图:

30965aefd5cbcd0cd0ae85b4f4d1c44a.png

欢迎大家和我一起沿着scikit-learn文档这条路线,一起巩固机器学习算法基础。(添加微信:mthler备注:sklearn学习,一起进【sklearn机器学习进步群】开启打怪升级的学习之旅。)

95dcc38345388dc1076d118bceda1bde.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python中有多种方法可以实现简单的文本相似度分析操作,下面将详细介绍一种常用的方法。 一、准备工作: 1. 导入必要的库:从sklearn中导入CountVectorizer和cosine_similarity。 2. 定义文本列表:将要比较的文本存储在一个列表中。 二、数据预处理: 1. 实例化CountVectorizer:使用CountVectorizer将文本转换为词频矩阵,每个文本中的每个词都是一个特征。 2. 计算词频矩阵:调用fit_transform方法将文本列表作为参数传递给CountVectorizer实例,得到词频矩阵。 三、相似度分析: 1. 计算余弦相似度矩阵:将词频矩阵作为参数传递给cosine_similarity函数,得到文本之间的余弦相似度矩阵。 四、结果解释: 1. 解释余弦相似度矩阵:余弦相似度矩阵是一个对称矩阵,对角线上的元素都是1,表示文本与自身的相似度为最大值1;非对角线上的元素表示两个不同文本之间的相似度,值越大表示相似度越高。 示例代码如下: ```python from sklearn.feature_extraction.text import CountVectorizer from sklearn.metrics.pairwise import cosine_similarity # 定义文本列表 texts = ['这是一个文本。', '这是另一个文本。', '这是一个不同的文本。'] # 实例化CountVectorizer并计算词频矩阵 vectorizer = CountVectorizer() word_count_matrix = vectorizer.fit_transform(texts) # 计算余弦相似度矩阵 cosine_sim_matrix = cosine_similarity(word_count_matrix, word_count_matrix) # 解释余弦相似度矩阵 for i in range(len(texts)): for j in range(len(texts)): print(f"文本{i+1}与文本{j+1}的相似度为:{cosine_sim_matrix[i][j]}") ``` 这个示例中,我们使用CountVectorizer将文本转换为词频矩阵,然后使用cosine_similarity计算余弦相似度矩阵。最后,我们打印出每个文本与其他文本的相似度
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值