etSha-CSDN博客

原创使用K-means聚类算法进行数据处理（附代码）

· 什么是聚类？在事先未知数据分类的情况下，通过聚类分析可以将数据聚合成几个不同群体。#这里聚类不需要对数据进行训练，属于无监督学习的一种。· K-means聚类属于聚类算法较为便捷、常用的一种。其特点在于需要提前手动指定分类数目，确定K个数据点，之后数据集中的数据会根据距离远近抱团聚合。· K-means聚类算法步骤（手写笔坏了，重回纸质时代）· 使用场景现有大量数据，希望对数据进行分类聚合，得到K个不同特征的数据集。#在数据分析中，聚类是后续做不同群组

2022-05-06 19:20:50 3603

原创使用TF-IDF算法进行数据处理（附代码）

使用TF-IDF算法，对中文文本进行分词、停词及词频计算。

2022-04-06 18:23:28 4782 8

原创【堆积图】pandas中unstack()函数用法

unstack()：是针对pandas的轴进行重新排列的一种方法具体用途：将数据的行index旋转成列columns*.unstack().plot(kind='bar',stacked='True'):生成以*为列的堆积图e.g.1 堆积图df.groupby(['Sex','Survived'])['Survived'].count().unstack().plot(kind='bar',stacked='True') #stacked堆积图#这里可以生成以count为列的堆..

2022-03-21 18:54:49 3703

原创【使用pandas进行数据分析】数据重构——合并与聚合、运算

在数据清洗之后，我们可以将不同表中的数据进行合并，再进行分析。那么，数据表如何进行合并？首先，我们可以利用concat语句：import numpy as npimport pandas as pddf=pd.read_csv('train-left-up.csv')df.head()df_left_up=pd.read_csv('train-left-up.csv')df_left_down=pd.read_csv('train-left-down.csv')df_right_

2022-03-19 16:18:47 1065

原创使用pandas清洗数据

Preview导入pandas/numpy库之后，先设定data(此例中data为titanic)titanic=pd.read_csv('train.csv')1.缺失值观察1.1是否有缺失值 #结果为TRUE代表有缺失值data.isnull().any() print(data.isnull().any())titanic.isnull().any()1.2统计列缺失值个数Data.isnull().sum() Print(Data.isnull()

2022-03-17 19:34:16 1268

原创【数据分析上手实践】读取数据

2022/3/151.导入两个库Numpy计算Pandas 开源用于数据分析的工具Import numpy as npImport pandas as pdimport os #用于os.getcwd()查找文件路径2.使用相对/绝对路径导入数据相对：pd.read_csv #将csv文件读入并转化为数据框形式#return dataframe or textparserdf=pd.read_csv('C:\\Users\\71403\\Desktop\.

2022-03-16 00:00:34 1714