- 博客(9)
- 收藏
- 关注
原创 pandas.discribe统计特征值们的输出格式设置
直接pd.discribe()输出出来,是科学计数法形式的,有的时候看这些统计值的结果非常地不直观。怎么设置一下呢?用pd.set_option()函数:pd.set_option('display.float_format', lambda x: '%.3f' % x)#这个设置的是保留小数点后3位。然后再pd.describe()输出后,数字看起来就非常地直观了。...
2019-03-25 11:43:29 1602
原创 来自行星模型的启发——谈模型之简单与复杂
读《数学之美》一书,作者谈行星模型,受到启发,我想谈谈数据挖掘建模中的模型复杂度问题。托勒密的地心说模型,大圆套小圆,十分复杂,然而模型是错误的;开普勒的日心说模型,椭圆模型,模型简单,并且模型是正确的。我想到了机器学习中的一个名词 “奥卡姆剃刀”。“奥卡姆剃刀”原则说的是什么呢?当两个模型都可以解决一个问题的时候,一个复杂点,一个简单点。那么建议我们选择哪一个呢?答案是简单一点的。为什么?...
2019-03-24 18:49:35 722
原创 c++重拾 STL vector使用
vector标准库vector表示对象的集合,其中所有的对象类型都相同。有了vector就尽量不要用数组了。我在oj上做编程题时,用数组时就可能出现一些无法理解的错误,而仅仅把定义改成vector就完全没问题。定义,初始化操作熟悉增删查改。例子#include <iostream>#include <vector>using namespace std;...
2019-03-20 11:32:38 169
原创 sql重拾(一)——谈谈数据分析方面的sql与python之异曲同工之妙
本科学了sql,研究生常常用python。二者在做数据分析、做统计方面有异曲同工之妙。sql中的、Excel里的统计函数、python里面的一些统计函数其实是一样的,同一原理,同一东西,表现形式不同而已。下面来体会一下。以下是我昨天写的一个笔记:Sql的聚集函数:如,sum() avg() count() max() min()聚集函数只能用在select和group by的having子...
2019-03-19 17:20:43 5534
原创 c++ STL重拾——stack使用
用法#include <stack>底层容器默认使用的是deque。stack提供了以下操作:入栈、出栈、判断栈空、访问栈顶、栈大小。stack s1;stack s2;入栈:s.push(x) 默认是不预设栈大小的出栈:s.pop() 注意出栈只是删除栈顶元素,并不返回该元素。其原型是value_type& top();另外需要自行判断堆栈是否为空,才可执行...
2019-03-19 17:02:32 226
原创 数据变换,数据规范化的方法之归一化(Min-max规范化)、标准化(Z-score规范化)、小数定标规范化
这篇总结了哪些东西:1. 数据变换2. 数据规范化方法归一化(Min-max规范化)标准化(Z-score标准化)小数定标规范化4. 规范化的作用3. 数据挖掘算法中是否都需要进行规范化呢?4. 标准化有什么注意事项?具体写在了我的笔记里:...
2019-03-06 11:52:59 14310 3
原创 详细的数据可视化库之Seaborn教程(二)——catplot:分类型数据作坐标轴画图
文章目录catplot(): 用分类型数据(categorical data)绘图一、分类散点图“分类坐标轴”1.catplot(kind="strip")默认2、蜂群图:catplot(kind="swarm")hue参数:利用不同颜色区分order参数:指定分类值顺序有些时候把分类变量放在垂直坐标轴上会更有帮助(尤其是当分类名称较长或者分类较多时)二、分类分布图1.箱线图:catplot(ki...
2019-03-05 18:51:58 23304 1
原创 详细的数据可视化库之Seaborn教程(一)——relplot:关系图(可视化统计量间的关系)
seaborn(一)——可视化统计量间的关系(relationship)seaborn关注的是统计量之间的关系。x,y一般为数值型数据,关注两个数值变量之间的关系sns.relplot()relplot():sns.replot(kind=“scatter”),相当于scatterplot()sns.replot(kind=“line”),相当于lineplot()可绘...
2019-03-05 11:59:30 24626 3
原创 时间序列——滑动窗口
滑动窗口是什么?滑动窗口就是能够根据指定的单位长度来框住时间序列,从而计算框内的统计指标。相当于一个长度指定的滑块正在刻度尺上面滑动,每滑动一个单位即可反馈滑块内的数据。看个例子import numpy as npimport pandas as pd#时间序列tssales= pd.read_csv(r'G:\kaggle\FutureSales\sales_train.csv')...
2019-03-02 18:22:45 26238 6
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人