布朗尼20200202-CSDN博客

原创 Pandas学习-练习题

#综合练习一 2002 年-2018 年上海机动车拍照拍卖import pandas as pddf = pd.read_csv('2002年-2018年上海机动车拍照拍卖.csv')df.head() Date Total number of license issued lowest price avg...

2020-05-01 23:03:02 534 1

原创 Pandas学习-合并篇

1.append与assignappend利用Series添加append利用DataFrame添加assign主要用于添加列2. comine和update都是用于表的填充函数，可以根据某种规则填充3. concat方法是轴向拼接，默认纵向拼接（axis=0），拼接方式默认外连接4. merge与join，横向合并，遇到重复的索引项时会使用笛卡尔积，默认inner连接，可选...

2020-04-30 18:11:39 192

原创 Pandas学习-变形篇

DataFrame.pivot_table数据透视表常用参数：values：要聚合的列或列的列表index：数据透视表的索引，从原数据的列中筛选出来columns：数据透视表的列，从原数据的列中筛选出来aggfunc：用于聚合的函数，默认为numpy.mean，支持各种聚合函数margins：汇总边际状态crosstab是用来统计分组频率常用参数：index:：要在行中分组的...

2020-04-27 22:51:30 149

原创 Pandas学习-分组篇

1.group by函数根据一列分组：如group1 = df.groupby(‘School’)根据多列分组：如group2 = df.groupby([‘School’,‘Class’])查看组容量与组数：group1.size()group1.ngroups组的遍历：for name,group in group1:根据奇偶行分组：df.groupby(lambda x:‘...

2020-04-26 21:35:58 220

原创 Pandas学习-索引篇

1. loc方法、iloc方法、[]操作符loc()单行索引：如df.loc[2]多行索引：如df.loc[[2,3]]单列索引：如df.loc[:,‘Height’].head()多列索引：如df.loc[:,[‘Height’,‘Math’]].head()联合索引：如df.loc[1102:2401:3,‘Height’:‘Math’].head()函数式索引：如df....

2020-04-23 20:02:50 109

原创 Pandas学习-基础篇

记录一下之前没学到的功能pandas 根据数据类型选择列df.select_dtypes(include=[‘number’]).head() #参数include指定数据类型df.select_dtypes(include=[‘float’]).head()nunique显示有多少个唯一值、unique显示所有的唯一值df[‘Physics’].nunique()df[...

2020-04-20 18:25:38 212

原创安装xgboost报错的解决方案

环境：win7 64位，Python3.6xgboost安装包的下载链接：https://www.lfd.uci.edu/~gohlke/pythonlibs/#xgboost安装步骤如下：下载上图中红框标出的安装包至本机路径E:\Anaconda20191027\Scripts下打开本机命令窗口，切换至Scripts目录下输入： pip install xgboost-1.0.2-...

2020-04-04 15:52:38 1109

原创数据挖掘学习|task5 模型融合

1. 模型融合的概念：先产生一组个体学习器，然后利用某种策略将它们结合起来，加强模型效果。周志华和李航老师的书中都证明随着个体学习器数目的增大，集成的错误率将呈指数级下降，最终趋向于零。因此，模型融合被广泛应用。2. 模型融合的策略：1.简单加权融合：回归（分类概率）：算术平均融合（Arithmetic mean），几何平均融合（Geometric mean）；分类：投票（Voting)...

2020-04-04 15:00:05 119

原创数据挖掘学习|task4 建模调参

线性回归模型：线性回归对于特征的要求；处理长尾分布；理解线性回归模型；线性回归模型建立通过对log(x+1)变换，使得长尾分布贴近于正态分布模型性能验证：评价函数与目标函数；交叉验证方法；留一验证方法；针对时间序列问题的验证；绘制学习率曲线；绘制验证曲线；#绘制学习率曲线与验证曲线from sklearn.model_selection import le...

2020-04-01 18:16:11 71

原创数据挖掘学习|task3 特征工程

特征工程概述“数据决定数据挖掘的上限，而算法只是尽可能逼近这个上限”，这里的数据就是指经过特征工程后得到的数据。那么，什么是特征工程呢？特征工程指的是把原始数据转变为后续模型需要的训练数据的过程，目的是获取更好的训练数据特征，使得机器学习模型更可能地逼近这个上限。可见，特征工程在数据挖掘中的重要性不言而喻，能使得模型的性能得到提升，有时甚至在简单的模型上也能取得不错的效果。特征工程的内容...

2020-03-27 19:15:39 142

原创数据挖掘学习|task2 EDA—数据探索性分析

1.学习参考链接：https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.12.1cd8593aw4bbL5&postId=95457数据探索在机器学习中一般被称为EDA（Exploratory Data Analysis）：是指对已有的数据（特别是调查或观察得来的原始数据）在尽量少的先验假定下进...

2020-03-23 22:01:45 299

weixin_39294199的博客