scikit-learn笔记----使用距离向量构建模型

最新推荐文章于 2024-07-03 17:47:58 发布

梵天的读书笔记

最新推荐文章于 2024-07-03 17:47:58 发布

阅读量703

点赞数

分类专栏：机器学习算法文章标签：聚类 sklearn

本文链接：https://blog.csdn.net/is_badboy/article/details/79636468

版权

本文详细介绍了使用scikit-learn库进行数据聚类的方法，包括KMeans和MiniBatch KMeans，特别是在处理大量数据和图像量化方面的应用。此外，还探讨了KNN（K最近邻）算法在回归任务中的使用。

摘要由CSDN通过智能技术生成

1. KMeans 对数据聚类

from sklearn.datasets import make_blobs
blobs, classes = make_blobs(500, centers=3)

from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=3)
kmeans.fit(blobs)

import matplotlib.pyplot as plt
import numpy as np
% matplotlib inline
f, ax = plt.subplots(figsize=(7.5, 7.5))
rgb = np.array(['r', 'g', 'b'])
ax.scatter(blobs[:, 0], blobs[:, 1], color=rgb[classes])
ax.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], marker='*', s=250, color='black', label='Centers')
ax.set_title('Blobs')
f.show()

labels_ 属性会产生每个点的预期标签

>>> kmean.labels_[:5]
array([1, 1, 2, 2, 1], dtype=int32)

transform 函数十分有用，它会输出每个点到形心的距离

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

梵天的读书笔记

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

NLP之词频向量化-sklearn模块

weixin_43439235的博客

03-19

1766

在scikit-learn工具包中有特征提取模块可以快速将文本表示为向量。sklearn在实现文本表示时默认方式是将语料中的每个分词（忽略单个字或字母的词）看作一个特征，将多个·文档表示成一个矩阵形式，每一行为一篇文档。每篇文档为固定长度，这个长度为分词总数。 python安装sklearn模块 pip install -U scikit-learn 假设我们有多篇文档，现在使用 vect...

sklearn计算两个向量之间的距离

S-H_A-N

01-26

1万+

from sklearn.feature_extraction.text import CountVectorizer from sklearn.metrics.pairwise import euclidean_distances from sklearn.feature_extraction.text import TfidfVectorizer import jieba def seg_w

参与评论您还未登录，请先登录后发表或查看评论

探索sklearn文本向量化：从词袋到深度学习的转变

最新发布

2401_85812026的博客

07-03

726

文本向量化是将文本数据转换为数值形式的过程，使得机器学习算法能够处理文本数据。

自然语言处理--sklearn计算特征向量之间距离的可用方法

糯米君的博客

01-11

1068

特征向量（词向量、主题向量、文档上下文向量等）之间的距离驱动着 NLP 流水线或任何机器学习流水线的性能。 'cityblock', 'cosine', 'euclidean', 'l1', 'l2', 'manhattan', 'braycurtis', 'canberra', 'chebyshev', 'correlation', 'dice', 'hamming', 'jaccard', 'kulsinski', 'mahalanobis', 'matching', 'minkowski', '

Python 欧式距离余弦相似度用scikit cosine_similarity计算相似度用scikit pairwise_distances计算相似度

XC_LMH的博客

01-14

1万+

1、欧式距离 # 1) given two data points, calculate the euclidean distance between them def get_distance(data1, data2): points = zip(data1, data2) diffs_squared_distance = [pow(a - b, 2) for (a, b) ...

利用sklearn做自然语言处理（NLP）——词向量特征构建

stevenkwong的博客

09-18

1万+

在自然语言处理中，第一步需要面对的就是词向量特征的提取。语言的特征提取在sklearn模块中有相当完善的方法和模块，而针对中文其实也可以同过分词软件做分词然后再按照英文文本的思路开展特征提取，机器学习。

scikit-learn:Jupyter笔记本，使用scikit-learn训练模型

04-29

实际上，scikit-learn支持许多其他算法，如决策树、随机森林、支持向量机、K近邻、神经网络等，以及集成学习方法，如网格搜索、交叉验证和模型选择工具。通过Jupyter Notebook，你可以逐步探索这些概念，不断优化你...

scikit-learn学习笔记.pdf

06-06

Scikit-learn是Python编程语言中的一个强大机器学习库，被广泛用于数据挖掘、数据分析以及机器学习项目。这个库提供了一系列高效且易于使用的工具，帮助数据科学家进行预处理、建模、评估等任务。 **主要特点：** 1...

scikit-learn-to-spark-ml:笔记本比较scikit-learn和Spark ML来构建机器学习管道

05-04

1. **scikit-learn**：包括其基本用法，如数据预处理（标准化、归一化）、模型选择（线性回归、逻辑回归、支持向量机、随机森林等）、交叉验证、网格搜索等。 2. **Spark MLlib**：介绍Spark的机器学习库，如何加载...

scikit-learn笔记5 SKLearn模型选择与评估超参数优化方法

weixin_44632711的博客

10-29

1219

超参数优化方法 1.什么是超参数(hyper-parameters)? 2.网格搜索穷举式超参数优化方法 3.随机采样式超参数优化方法 4.超参数空间的搜索技巧 5.暴力参数搜索方法的替代办法什么是超参数(hyper-parameters)? 学习器模型中一般有两类参数:一类参数可以从数据中学习估计得到，还有一类参数无法从数据中估计，只能靠人的经验进行设计指定。后一类参数就叫超参数。比如，支持向量机里的C，Kernel，gama，朴素贝叶斯里的alpha 在学习器模型的设计中，我们要搜索超参数空.

sklearn 生成中文词向量与tfidf

Eadon999

06-12

7601

一、英文的词向量生成想必大家都已经能从官网学到，利用sklean的CoutVectorizer模块即可简单生成，借用官网例子：from sklearn.feature_extraction.text import CountVectorizer,TfidfTransformervecizer = CountVectorizer()corpus = [ 'This is the first d...

使用sklearn生成TF-IDF词向量

姬小野的博客

05-28

2914

写一个使用sklearn生成TF-IDF词向量的模板函数： from sklearn import feature_extraction # 导入sklearn库, 以获取文本的tf-idf值 from sklearn.feature_extraction.text import TfidfTransformer from sklearn.feature_extraction.text impor...

词向量与词向量拼接_<1>词向量与ELMo模型词向量漫谈

weixin_39804523的博客

12-19

293

目录：基础部分回顾(词向量、语言模型)NLP的核心：学习不同语境下的语义表示基于LSTM的词向量学习深度学习中的层次表示以及Deep BI-LSTMELMo模型总结1. 基础部分回顾(词向量、语言模型)1.1 独热编码-词的表示1.2 词向量-词的表示我们为什么需要词向量？(One-hot向量的缺点？)基于One-hot能否表示单词之间语义相似度？1.2.1 基于One-hot能否表示单词之间语义...

sklearn 下距离的度量 —— sklearn.metrics

weixin_30527423的博客

10-26

939

1. pairwise from sklearm.metrics.pairwise import pairwise_distance 计算一个样本集内部样本之间的距离： D = np.array([np.linalg.norm(r1-r2) for r1 in X] for r2 in X) 当然，不要重复制造轮子，sklearn 已为我们提供了实...

sklearn.metrics.pairwise_distances