自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

元气满满晨

进一步有进一步的欢喜

  • 博客(9)
  • 收藏
  • 关注

原创 pandas.discribe统计特征值们的输出格式设置

直接pd.discribe()输出出来,是科学计数法形式的,有的时候看这些统计值的结果非常地不直观。怎么设置一下呢?用pd.set_option()函数:pd.set_option('display.float_format', lambda x: '%.3f' % x)#这个设置的是保留小数点后3位。然后再pd.describe()输出后,数字看起来就非常地直观了。...

2019-03-25 11:43:29 1602

原创 来自行星模型的启发——谈模型之简单与复杂

读《数学之美》一书,作者谈行星模型,受到启发,我想谈谈数据挖掘建模中的模型复杂度问题。托勒密的地心说模型,大圆套小圆,十分复杂,然而模型是错误的;开普勒的日心说模型,椭圆模型,模型简单,并且模型是正确的。我想到了机器学习中的一个名词 “奥卡姆剃刀”。“奥卡姆剃刀”原则说的是什么呢?当两个模型都可以解决一个问题的时候,一个复杂点,一个简单点。那么建议我们选择哪一个呢?答案是简单一点的。为什么?...

2019-03-24 18:49:35 722

原创 c++重拾 STL vector使用

vector标准库vector表示对象的集合,其中所有的对象类型都相同。有了vector就尽量不要用数组了。我在oj上做编程题时,用数组时就可能出现一些无法理解的错误,而仅仅把定义改成vector就完全没问题。定义,初始化操作熟悉增删查改。例子#include <iostream>#include <vector>using namespace std;...

2019-03-20 11:32:38 169

原创 sql重拾(一)——谈谈数据分析方面的sql与python之异曲同工之妙

本科学了sql,研究生常常用python。二者在做数据分析、做统计方面有异曲同工之妙。sql中的、Excel里的统计函数、python里面的一些统计函数其实是一样的,同一原理,同一东西,表现形式不同而已。下面来体会一下。以下是我昨天写的一个笔记:Sql的聚集函数:如,sum() avg() count() max() min()聚集函数只能用在select和group by的having子...

2019-03-19 17:20:43 5534

原创 c++ STL重拾——stack使用

用法#include <stack>底层容器默认使用的是deque。stack提供了以下操作:入栈、出栈、判断栈空、访问栈顶、栈大小。stack s1;stack s2;入栈:s.push(x) 默认是不预设栈大小的出栈:s.pop() 注意出栈只是删除栈顶元素,并不返回该元素。其原型是value_type& top();另外需要自行判断堆栈是否为空,才可执行...

2019-03-19 17:02:32 226

原创 数据变换,数据规范化的方法之归一化(Min-max规范化)、标准化(Z-score规范化)、小数定标规范化

这篇总结了哪些东西:1. 数据变换2. 数据规范化方法归一化(Min-max规范化)标准化(Z-score标准化)小数定标规范化4. 规范化的作用3. 数据挖掘算法中是否都需要进行规范化呢?4. 标准化有什么注意事项?具体写在了我的笔记里:...

2019-03-06 11:52:59 14310 3

原创 详细的数据可视化库之Seaborn教程(二)——catplot:分类型数据作坐标轴画图

文章目录catplot(): 用分类型数据(categorical data)绘图一、分类散点图“分类坐标轴”1.catplot(kind=&quot;strip&quot;)默认2、蜂群图:catplot(kind=&quot;swarm&quot;)hue参数:利用不同颜色区分order参数:指定分类值顺序有些时候把分类变量放在垂直坐标轴上会更有帮助(尤其是当分类名称较长或者分类较多时)二、分类分布图1.箱线图:catplot(ki...

2019-03-05 18:51:58 23304 1

原创 详细的数据可视化库之Seaborn教程(一)——relplot:关系图(可视化统计量间的关系)

seaborn(一)——可视化统计量间的关系(relationship)seaborn关注的是统计量之间的关系。x,y一般为数值型数据,关注两个数值变量之间的关系sns.relplot()relplot():sns.replot(kind=“scatter”),相当于scatterplot()sns.replot(kind=“line”),相当于lineplot()可绘...

2019-03-05 11:59:30 24626 3

原创 时间序列——滑动窗口

滑动窗口是什么?滑动窗口就是能够根据指定的单位长度来框住时间序列,从而计算框内的统计指标。相当于一个长度指定的滑块正在刻度尺上面滑动,每滑动一个单位即可反馈滑块内的数据。看个例子import numpy as npimport pandas as pd#时间序列tssales= pd.read_csv(r'G:\kaggle\FutureSales\sales_train.csv')...

2019-03-02 18:22:45 26238 6

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除