2019年03月_pingzishinee

原创 pandas.discribe统计特征值们的输出格式设置

直接pd.discribe()输出出来，是科学计数法形式的，有的时候看这些统计值的结果非常地不直观。怎么设置一下呢？用pd.set_option()函数:pd.set_option('display.float_format', lambda x: '%.3f' % x)#这个设置的是保留小数点后3位。然后再pd.describe()输出后，数字看起来就非常地直观了。...

2019-03-25 11:43:29 1602

原创来自行星模型的启发——谈模型之简单与复杂

读《数学之美》一书，作者谈行星模型，受到启发，我想谈谈数据挖掘建模中的模型复杂度问题。托勒密的地心说模型，大圆套小圆，十分复杂，然而模型是错误的；开普勒的日心说模型，椭圆模型，模型简单，并且模型是正确的。我想到了机器学习中的一个名词 “奥卡姆剃刀”。“奥卡姆剃刀”原则说的是什么呢？当两个模型都可以解决一个问题的时候，一个复杂点，一个简单点。那么建议我们选择哪一个呢？答案是简单一点的。为什么？...

2019-03-24 18:49:35 722

原创 c++重拾 STL vector使用

vector标准库vector表示对象的集合，其中所有的对象类型都相同。有了vector就尽量不要用数组了。我在oj上做编程题时，用数组时就可能出现一些无法理解的错误，而仅仅把定义改成vector就完全没问题。定义，初始化操作熟悉增删查改。例子#include <iostream>#include <vector>using namespace std;...

2019-03-20 11:32:38 169

原创 sql重拾（一）——谈谈数据分析方面的sql与python之异曲同工之妙

本科学了sql，研究生常常用python。二者在做数据分析、做统计方面有异曲同工之妙。sql中的、Excel里的统计函数、python里面的一些统计函数其实是一样的，同一原理，同一东西，表现形式不同而已。下面来体会一下。以下是我昨天写的一个笔记：Sql的聚集函数：如，sum() avg() count() max() min()聚集函数只能用在select和group by的having子...

2019-03-19 17:20:43 5534

原创 c++ STL重拾——stack使用

用法#include <stack>底层容器默认使用的是deque。stack提供了以下操作：入栈、出栈、判断栈空、访问栈顶、栈大小。stack s1;stack s2;入栈：s.push(x) 默认是不预设栈大小的出栈：s.pop() 注意出栈只是删除栈顶元素，并不返回该元素。其原型是value_type& top()；另外需要自行判断堆栈是否为空，才可执行...

2019-03-19 17:02:32 226

原创数据变换，数据规范化的方法之归一化（Min-max规范化）、标准化（Z-score规范化）、小数定标规范化

这篇总结了哪些东西：1. 数据变换2. 数据规范化方法归一化（Min-max规范化）标准化（Z-score标准化）小数定标规范化4. 规范化的作用3. 数据挖掘算法中是否都需要进行规范化呢？4. 标准化有什么注意事项？具体写在了我的笔记里：...

2019-03-06 11:52:59 14310 3

原创详细的数据可视化库之Seaborn教程(二)——catplot：分类型数据作坐标轴画图

文章目录catplot(): 用分类型数据（categorical data）绘图一、分类散点图“分类坐标轴”1.catplot(kind="strip")默认2、蜂群图：catplot(kind="swarm")hue参数：利用不同颜色区分order参数：指定分类值顺序有些时候把分类变量放在垂直坐标轴上会更有帮助（尤其是当分类名称较长或者分类较多时）二、分类分布图1.箱线图：catplot(ki...

2019-03-05 18:51:58 23304 1

原创详细的数据可视化库之Seaborn教程(一)——relplot：关系图（可视化统计量间的关系）

seaborn（一）——可视化统计量间的关系（relationship）seaborn关注的是统计量之间的关系。x，y一般为数值型数据，关注两个数值变量之间的关系sns.relplot()relplot():sns.replot(kind=“scatter”)，相当于scatterplot()sns.replot(kind=“line”)，相当于lineplot()可绘...

2019-03-05 11:59:30 24626 3

原创时间序列——滑动窗口

滑动窗口是什么？滑动窗口就是能够根据指定的单位长度来框住时间序列，从而计算框内的统计指标。相当于一个长度指定的滑块正在刻度尺上面滑动，每滑动一个单位即可反馈滑块内的数据。看个例子import numpy as npimport pandas as pd#时间序列tssales= pd.read_csv(r'G:\kaggle\FutureSales\sales_train.csv')...

2019-03-02 18:22:45 26238 6

元气满满晨