自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 Pandas学习-练习题

#综合练习一 2002 年-2018 年上海机动车拍照拍卖 import pandas as pd df = pd.read_csv('2002年-2018年上海机动车拍照拍卖.csv') df.head() Date Total number of license issued lowest price avg...

2020-05-01 23:03:02 533 1

原创 Pandas学习-合并篇

1.append与assign append利用Series添加 append利用DataFrame添加 assign主要用于添加列 2. comine和update都是用于表的填充函数,可以根据某种规则填充 3. concat方法是轴向拼接,默认纵向拼接(axis=0),拼接方式默认外连接 4. merge与join,横向合并,遇到重复的索引项时会使用笛卡尔积,默认inner连接,可选...

2020-04-30 18:11:39 190

原创 Pandas学习-变形篇

DataFrame.pivot_table数据透视表 常用参数: values:要聚合的列或列的列表 index:数据透视表的索引,从原数据的列中筛选出来 columns:数据透视表的列,从原数据的列中筛选出来 aggfunc:用于聚合的函数,默认为numpy.mean,支持各种聚合函数 margins:汇总边际状态 crosstab是用来统计分组频率 常用参数: index::要在行中分组的...

2020-04-27 22:51:30 149

原创 Pandas学习-分组篇

1.group by函数 根据一列分组:如group1 = df.groupby(‘School’) 根据多列分组:如group2 = df.groupby([‘School’,‘Class’]) 查看组容量与组数: group1.size() group1.ngroups 组的遍历:for name,group in group1: 根据奇偶行分组: df.groupby(lambda x:‘...

2020-04-26 21:35:58 220

原创 Pandas学习-索引篇

1. loc方法、iloc方法、[]操作符 loc() 单行索引:如df.loc[2] 多行索引:如df.loc[[2,3]] 单列索引:如df.loc[:,‘Height’].head() 多列索引:如df.loc[:,[‘Height’,‘Math’]].head() 联合索引:如df.loc[1102:2401:3,‘Height’:‘Math’].head() 函数式索引: 如 df....

2020-04-23 20:02:50 109

原创 Pandas学习-基础篇

记录一下之前没学到的功能 pandas 根据数据类型选择列 df.select_dtypes(include=[‘number’]).head() #参数include指定数据类型 df.select_dtypes(include=[‘float’]).head() nunique显示有多少个唯一值、unique显示所有的唯一值 df[‘Physics’].nunique() df[...

2020-04-20 18:25:38 212

原创 安装xgboost报错的解决方案

环境:win7 64位,Python3.6 xgboost安装包的下载链接:https://www.lfd.uci.edu/~gohlke/pythonlibs/#xgboost 安装步骤如下: 下载上图中红框标出的安装包至本机路径E:\Anaconda20191027\Scripts下 打开本机命令窗口,切换至Scripts目录下 输入: pip install xgboost-1.0.2-...

2020-04-04 15:52:38 1109

原创 数据挖掘学习|task5 模型融合

1. 模型融合的概念:先产生一组个体学习器,然后利用某种策略将它们结合起来,加强模型效果。周志华和李航老师的书中都证明随着个体学习器数目的增大,集成的错误率将呈指数级下降,最终趋向于零。因此,模型融合被广泛应用。 2. 模型融合的策略: 1.简单加权融合: 回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean); 分类:投票(Voting) ...

2020-04-04 15:00:05 119

原创 数据挖掘学习|task4 建模调参

线性回归模型: 线性回归对于特征的要求; 处理长尾分布; 理解线性回归模型; 线性回归模型建立 通过对log(x+1)变换,使得长尾分布贴近于正态分布 模型性能验证: 评价函数与目标函数; 交叉验证方法;留一验证方法; 针对时间序列问题的验证; 绘制学习率曲线; 绘制验证曲线; #绘制学习率曲线与验证曲线 from sklearn.model_selection import le...

2020-04-01 18:16:11 71

原创 数据挖掘学习|task3 特征工程

特征工程概述 “数据决定数据挖掘的上限,而算法只是尽可能逼近这个上限”,这里的数据就是指经过特征工程后得到的数据。那么,什么是特征工程呢?特征工程指的是把原始数据转变为后续模型需要的训练数据的过程,目的是获取更好的训练数据特征,使得机器学习模型更可能地逼近这个上限。可见,特征工程在数据挖掘中的重要性不言而喻,能使得模型的性能得到提升,有时甚至在简单的模型上也能取得不错的效果。 特征工程的内容 ...

2020-03-27 19:15:39 142

原创 数据挖掘学习|task2 EDA—数据探索性分析

1.学习参考链接:https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.12.1cd8593aw4bbL5&postId=95457 数据探索在机器学习中一般被称为EDA(Exploratory Data Analysis): 是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进...

2020-03-23 22:01:45 299

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除