数据分析
奔跑的乌班
wobuxiangxie
展开
-
数据特征分析之帕累托分析以及python实现
帕累托分析(贡献度分析) → 帕累托法则:20/80定律“原因和结果、投入和产出、努力和报酬之间本来存在着无法解释的不平衡。一般来说,投入和努力可以分为两种不同的类型:多数,它们只能造成少许的影响;少数,它们造成主要的、重大的影响。”→ 一个公司,80%利润来自于20%的畅销产品,而其他80%的产品只产生了20%的利润例如:** 世界上大约80%的资源是由世界上15%的人口所耗尽的**...原创 2019-02-22 09:58:05 · 5592 阅读 · 0 评论 -
数据分析-使用matplotlib可视化工具画图
区域填充以某种颜色填充两条曲线的闭合区域.mp.fill_between( x, # x值的区间 sin_x, # 与x组成一条曲线 cos_x, # 与x组成第二条曲线 sin_x < cos_x, # 绘制填充的条件 color='', alpha=0.5)案例: 绘制 sin_x=sin(x) cos_x...原创 2019-03-18 11:03:02 · 581 阅读 · 0 评论 -
数据分析之-matplotlib概述
matplotlib概述matplotlib是python的一个绘图库.使用它可以很方便的绘制出版质量级别的图形.matplotlib的基本功能基本绘图绘制折线, 设置线型/线宽/颜色等.设置坐标轴范围设置坐标刻度设置坐标轴位置/颜色图例特殊点备注高级图形操作子图操作刻度定位器/刻度网格线半对数坐标散点图图像填充条形图/饼状图等高线图/热成像图3D图...原创 2019-03-18 11:00:26 · 442 阅读 · 0 评论 -
数据分析之-numpy概述
numpy概述Numerical Python(数值python). 补充了python欠缺的数值运算能力.Numpy是其他数据分析及机器学习的底层库.Numpy完全标准C语言实现, 运行效率高.开源免费.numpy的历史1995年, 发布Numeric python.2001年, Scipy 提供 Numarray. (提供了多维数组)2005年, Numeric + Nu...原创 2019-03-18 10:56:59 · 203 阅读 · 0 评论 -
ROW_NUMBER() OVER()函数用法详解 (分组排序 例子多)
转载自:https://blog.csdn.net/qq_25221835/article/details/82762416,感谢作者的分享 原 ROW_NUMBER() OVER()函数用法详解 (分组排序 例子多) 2018年09月18日 19:11:38 一彡十 ...转载 2019-03-08 19:45:28 · 1392 阅读 · 0 评论 -
numpy中的cumsum函数
Cumsum :计算轴向元素累加和,返回由中间结果组成的数组重点就是返回值是“由中间结果组成的数组”以下代码在python3.6版本运行成功!下面看代码,定义一个223的数组,所以其shape是2,2,3,索引分别0,1,2shape 索引2 02 13 2代码:import numpy as nparr = np.array([[[1,2,3],[8,9,12]],[[1,...转载 2018-12-29 21:20:48 · 5518 阅读 · 0 评论 -
pandas学习笔记之Dataframe索引
# DataFra是一个表格, 有行索引和列索引,可以被看做由Series组成的字典(共用一个索引) import numpy as np import pandas as pd df = pd.DataFrame(np.random.rand(12).reshape(3,4) * 100, index = ["one","two","three"], c..原创 2019-01-03 14:59:32 · 734 阅读 · 0 评论 -
pandas中Series数组创建方法
import numpy as npimport pandas as pdar = np.random.rand(5)# s = pd.Series(ar)s = pd.Series(ar, index = list("abcde"))print(s)print(type(s))print("-------------")print(s.index, type(s.index)...原创 2019-01-03 15:10:15 · 6268 阅读 · 0 评论 -
5种创建Dataframe方法
下面将简要介绍Dataframe的5种创建方法,由于输出结果比较冗余,这里将不会展示输出结果,读者可以自行赋值粘贴,最好使用jupyter运行,并查看结果。另外的,代码中有非常详细的注释。Dataframe创建方法一import numpy as npimport pandas as pddata1 = { "a":[1,2,3], "b":[4,5,6], &a原创 2019-01-03 15:17:02 · 85731 阅读 · 0 评论 -
pandas分组统计 - groupby功能
数据分组分组统计 - groupby功能① 根据某些条件将数据拆分成组② 对每个组独立应用函数③ 将结果合并到一个数据结构中Dataframe在行(axis=0)或列(axis=1)上进行分组,将一个函数应用到各个分组并产生一个新值,然后函数执行结果被合并到最终的结果对象中。df.groupby(by=None, axis=0, level=None, as_index=True, s...原创 2019-01-05 11:11:16 · 37875 阅读 · 0 评论 -
数据分析之正态分布检验及python实现
正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),最早由A.棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。 正态曲线呈钟型,两头低,中间高,左右对称因...原创 2019-02-22 10:30:54 · 58092 阅读 · 22 评论 -
数据分析之绘制边界以及np.c_和np.r_用法
这里记录一下绘制分类边界的方法。记录一下meshgrid,pcolormesh的使用方法import numpy as np# 抓取数据iris = datasets.load_iris()x = iris.data[:, 1:3]y = iris.target[:]k = 15 # 设置KNN k=15,计算周围临近的15个点# 图片,x,y每一步的步长h = 0.02# ...原创 2019-03-30 23:54:39 · 657 阅读 · 0 评论