数据分析
银河系少女
这个作者很懒,什么都没留下…
展开
-
一、单因子探索分析与可视化
1.读取csv文件,查看基本信息 import pandas as pd df=pd.read_csv('HR.csv') df.head() #查看前五行数据 type(df) #查看数据类型 df.mean() #平均值 df.median() #中值 df.quantile(q=0.25) #四分位数 df.mode() #众数 df.std() #标准差 df.var(...原创 2019-06-23 21:50:30 · 280 阅读 · 0 评论 -
数据预处理
1.导入 python中的三个库(Numpy、Matplotlib、Pandas) import numpy as ap import matplotlib.pyplot as plt import pandas as pd 读入数据集 dataset=pd.read_csv(data.csv) 创建矩阵保存自变量 X=dataset.iloc[:,:-1].values #第一个:表示提取...原创 2019-04-04 15:09:56 · 975 阅读 · 0 评论 -
三、预处理理论
特征工程: 1.特征使用(数据的选择、数据的可用性) 2.特征获取(特征来源、特征存储) 3.特征处理(数据清洗、特征预处理) 4.特征监控(现有特征、新特征) 下面重点介绍一下特征处理 1.数据清洗 1)数据样本采集(抽样) 2)异常值(空值)处理 import pandas as pd df=pd.DataFrame({'A':['a0','a1','a1','a2','a3','a4'],'...原创 2019-08-24 19:59:16 · 197 阅读 · 0 评论 -
二、多因子探索分析与可视化
一、假设检验与方差检验 import numpy as np import scipy.stats as ss 1.正态检验 norm_dist=ss.norm.rvs(size=20) #符合标准正态分布的20个数 ss.normaltest(norm_dist) #检验是否为正态分布,p>0.05符合正态分布,基于偏度和峰度的一种检验法 2.卡方检验 ss.chi2_contingenc...原创 2019-08-12 19:32:57 · 2449 阅读 · 0 评论 -
四、挖掘建模——分类
训练集、验证集和测试集 训练集:用于训练和拟合模型 验证集:通过训练集训练出多个模型后,使用验证集数据来寻找模型得最佳参数 测试集:模型泛化能力的考量(泛化指的是对未知数据的预测能力) #划分训练集、验证集和测试集 from sklearn.model_selection import train_test_split f_v=features.values l_v=label.values ...原创 2019-09-17 19:19:40 · 214 阅读 · 0 评论