查看数据集中是否有重复样本

最新推荐文章于 2024-01-16 13:39:13 发布

DeniuHe

最新推荐文章于 2024-01-16 13:39:13 发布

阅读量342

点赞数

分类专栏：算法文章标签： python

本文链接：https://blog.csdn.net/DeniuHe/article/details/123238719

版权

算法专栏收录该内容

193 篇文章 2 订阅

订阅专栏

import numpy as np
import pandas as pd
from collections import OrderedDict
from sklearn import datasets
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from scipy.spatial.distance import pdist,squareform
from collections import Counter

data = np.array(pd.read_csv(r"D:\OCdata\automobile.csv"))
X = data[:, :-1]
scaler = StandardScaler()
X = scaler.fit_transform(X)
y = data[:, -1]

dist_matrix = squareform(pdist(X,metric='euclidean'))

zero_count = 0
for i in range(dist_matrix.shape[0]):
    for j in range(dist_matrix.shape[1]):
        if dist_matrix[i,j] == 0.0:
            zero_count += 1
print(X.shape[0]," ",zero_count )

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

DeniuHe

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
查看数据集中是否有重复样本

import numpy as npimport pandas as pdfrom collections import OrderedDictfrom sklearn import datasetsfrom sklearn.cluster import KMeansfrom sklearn.preprocessing import StandardScalerfrom scipy.spatial.distance import pdist,squareformfrom collection.
复制链接

扫一扫