大数据理论课（第十节-----表格关键数据分类和无关数据剔除）

最新推荐文章于 2021-07-04 17:18:41 发布

国民小跟班

最新推荐文章于 2021-07-04 17:18:41 发布

阅读量219

点赞数

分类专栏： # 3.大数据理论课文章标签： python 数据分析

本文链接：https://blog.csdn.net/jjsjsjjdj/article/details/103482139

版权

3.大数据理论课专栏收录该内容

11 篇文章 0 订阅

订阅专栏

一、数据关键信息提取分类统计

import pandas as pd
from sklearn.preprocessing  import  StandardScaler
from sklearn.cluster import  KMeans

data=pd.read_csv(r"G:\大数据实验数据库\3.大数据实验数据\credit_card.csv",sep=",",encoding="GBK")
data.columns

data_action=data[["瑕疵户","逾期","呆账","强制停卡记录","退票","拒往记录"]]
data_action_std=StandardScaler().fit_transform(data_action)
data_kmean1=KMeans(n_clusters=5,random_state=0).fit(data_action_std)

r1=pd.Series(data_kmean1.labels_).value_counts()
print("行为特征每类的数目\n",r1)
print("数据的聚类中心\n",data_kmean1.cluster_centers_)

二、求解Pearson相关系数

import numpy as np
import pandas as pd
data=pd.read_csv(r"G:\大数据实验数据库\data.csv",encoding="GBK")
print("相关系数矩阵为：\n",np.round(data.corr(method="pearson"),2))

三、Lasso关键特性截取

from sklearn.linear_model  import Lasso
lasso=Lasso(1000)
lasso.fit(data.iloc[:,0:13],data['y'])
print("相关系数为:",np.round(lasso.coef_,5))
print('相关系数非0个数为:',np.sum(lasso.coef_!=0))

国民小跟班

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
大数据理论课（第十节-----表格关键数据分类和无关数据剔除）

一、数据关键信息提取分类统计import pandas as pdfrom sklearn.preprocessing import StandardScalerfrom sklearn.cluster import KMeansdata=pd.read_csv(r"G:\大数据实验数据库\3.大数据实验数据\credit_card.csv",sep=",",encoding="G...
复制链接

扫一扫