自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 使用K-means聚类算法进行数据处理(附代码)

· 什么是聚类?在事先未知数据分类的情况下,通过聚类分析可以将数据聚合成几个不同群体。#这里聚类不需要对数据进行训练,属于无监督学习的一种。· K-means聚类属于聚类算法较为便捷、常用的一种。其特点在于需要提前手动指定分类数目,确定K个数据点,之后数据集中的数据会根据距离远近抱团聚合。· K-means聚类算法步骤(手写笔坏了,重回纸质时代)· 使用场景现有大量数据,希望对数据进行分类聚合,得到K个不同特征的数据集。#在数据分析中,聚类是后续做不同群组

2022-05-06 19:20:50 3340

原创 使用TF-IDF算法进行数据处理(附代码)

使用TF-IDF算法,对中文文本进行分词、停词及词频计算。

2022-04-06 18:23:28 4442 8

原创 【堆积图】pandas中unstack()函数用法

unstack():是针对pandas的轴进行重新排列的一种方法具体用途:将数据的行index旋转成列columns*.unstack().plot(kind='bar',stacked='True'):生成以*为列的堆积图e.g.1 堆积图df.groupby(['Sex','Survived'])['Survived'].count().unstack().plot(kind='bar',stacked='True') #stacked堆积图#这里可以生成以count为列的堆..

2022-03-21 18:54:49 3402

原创 【使用pandas进行数据分析】数据重构——合并与聚合、运算

在数据清洗之后,我们可以将不同表中的数据进行合并,再进行分析。那么,数据表如何进行合并?首先,我们可以利用concat语句:import numpy as npimport pandas as pddf=pd.read_csv('train-left-up.csv')df.head()df_left_up=pd.read_csv('train-left-up.csv')df_left_down=pd.read_csv('train-left-down.csv')df_right_

2022-03-19 16:18:47 999

原创 使用pandas清洗数据

Preview导入pandas/numpy库之后,先设定data(此例中data为titanic)titanic=pd.read_csv('train.csv')1.缺失值观察1.1是否有缺失值 #结果为TRUE代表有缺失值data.isnull().any() print(data.isnull().any())titanic.isnull().any()1.2统计列缺失值个数Data.isnull().sum() Print(Data.isnull()

2022-03-17 19:34:16 1208

原创 【数据分析上手实践】读取数据

2022/3/151.导入两个库Numpy计算Pandas 开源用于数据分析的工具Import numpy as npImport pandas as pdimport os #用于os.getcwd()查找文件路径2.使用相对/绝对路径导入数据相对:pd.read_csv #将csv文件读入并转化为数据框形式#return dataframe or textparserdf=pd.read_csv('C:\\Users\\71403\\Desktop\.

2022-03-16 00:00:34 1644

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除