知识点
石山下
这个作者很懒,什么都没留下…
展开
-
从零上手Python关键代码
从零上手Python关键代码概要基础篇变量控制流:条件语句循环/迭代器列表:数组数据结构字典:键-值数据结构迭代:数据结构中的循环类与对象封装:隐藏信息公开实例变量私有实例变量公开方法私有方法封装小结从零上手Python关键代码本文内容属数据分析入门知识,适合零基础数据分析爱好者,是参加「DATA TRAIN|金融行业数据算法练习...转载 2019-03-14 18:52:34 · 309 阅读 · 0 评论 -
seaborn可视化学习之distribution visualization
在做数据分析&挖掘的时候,描述性统计必不可少。比如:我们需要去看看各个quantitative变量的分布情况,良好的分布可视化效果会为之后进一步做数据建模打下基础。这篇文档结合科赛网上面的链家二手房数据集,对如何使用seaborn这个强大的库做distribution visualization做一下讲解。对于quantitative变量做分布可视化,主要有两点,一是探寻变量自身的分布...转载 2019-03-14 19:00:04 · 752 阅读 · 0 评论 -
seaborn可视化之heatmap & time series & regression
之前尝试了用seaborn去做category和distribution可视化。时间序列的数据也是数据分析&挖掘的常客,这次选取了1965-2016全球重大地震数据做一些可视化及分析。主要研究下seaborn中heatmap,time series 以及regression function的使用。seaborn中的plot function:* heatmap: 用颜色矩阵去显...转载 2019-03-14 18:59:27 · 1603 阅读 · 0 评论 -
seaborn可视化学习之categorial visualization
seaborn是一个做数据可视化效果很棒的库。在看了官方tutorial之后,尝试用Iris鸢尾花数据集实践一下categorical visualization,也就是数据按类别进行可视化。首先介绍一下Iris鸢尾花数据集,内容摘自百度百科:Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整理。“Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数...转载 2019-03-14 18:58:50 · 325 阅读 · 0 评论 -
从零开始学Python【3】--matplotlib(箱线图)
前言 今天继续我们的python绘图系列,针对离散变量我们可以使用常见的条形图和饼图完成数据的可视化工作,那么,针对数值型变量,我们也有很多可视化的方法,例如箱线图、直方图、折线图、面积图、散点图等等。这一期,我们就先来介绍一下数值型变量的箱线图绘制。箱线图一般用来展现数据的分布(如上下四分位值、中位数等),同时,也可以用箱线图来反映数据的异常情况。boxplot函数的参数解读...转载 2019-03-14 18:57:56 · 829 阅读 · 0 评论 -
从零开始学Python【2】--matplotlib(饼图)
前言 在从零开始学Python系列10中,我们用条形图来展示离散变量的分布呈现,在常见的统计图像中,还有一种图像可以表示离散变量各水平占比情况,这就是我们要讲解的饼图。饼图的绘制可以使用matplotlib库中的pie函数,首先我们来看看这个函数的参数说明。pie函数参数解读plt.pie(x, explode=None, labels=None, colors=None, ...转载 2019-03-14 18:57:20 · 654 阅读 · 0 评论 -
从零开始学Python【1】--matplotlib(条形图)
在本期内容中,我们先从条形图开始,条形图实际上是用来表示分组(或离散)变量的可视化,可以使用matplotlib模块中的bar函数完成条形图的绘制。一、简单垂直条形图 案例一:直辖市GDP水平 中国的四个直辖市分别为北京市、上海市、天津市和重庆市,其2017年上半年的GDP分别为12406.8亿、13908.57亿、9386.87亿、9143.64亿。对于这样一组数据,我们该如何...转载 2019-03-14 18:52:02 · 514 阅读 · 0 评论 -
这100道练习,带你玩转Numpy
Numpy是Python做数据分析所必须要掌握的基础库之一。本文内容由科赛网翻译整理自Github开源项目(部分题目保留了原文作参考),建议读者完成科赛网 Numpy快速上手指南 --- 基础篇 和 Numpy快速上手指南 --- 进阶篇 这两篇教程的学习之后。此版本为完整答案版。在每一道问题后面,我们将答案代码块做了注释。「Fork」项目后,在答案cell中消除注释符号,即可运行代码,得出结...转载 2019-03-14 18:55:21 · 2662 阅读 · 0 评论 -
Numpy快速上手指南 --- 进阶篇
目录1. 广播法则(rule)2. 花哨的索引和索引技巧通过数组索引通过布尔数组索引ix_()函数用字符串索引线性代数简单数组运算矩阵类索引:比较矩阵和二维数组技巧和提示"自动" 改变形状向量组合(stacking)直方图(histogram)这篇文档是参加「DATA TRAIN|金融行业数据算法练习赛」的前期学习素材。文档内容转载整...转载 2019-03-14 18:53:40 · 210 阅读 · 0 评论 -
Numpy快速上手指南 --- 基础篇
目录1. 概览2. 创建数组3. 打印数组4. 基本运算5. 通用函数 ufunc索引,切片和迭代6. 形状操作更改数组的形状组合(stack)不同的数组将一个数组分割(split)成几个小数组复制和视图7. 函数和方法method总览创建数组转化操作询问排序运算基本统计基本线性代数这篇文档是参加「DATA TRA...转载 2019-03-14 18:53:25 · 225 阅读 · 0 评论 -
这十套练习,教你如何用Pandas做数据分析
目录练习题索引对应的数据集文件路径查看练习1-开始了解你的数据探索Chipotle快餐数据步骤1 导入必要的库步骤2 从如下地址导入数据集步骤3 将数据集存入一个名为chipo的数据框内步骤4 查看前10行内容步骤6 数据集中有多少个列(columns)步骤7 打印出全部的列名称步骤8 数据集的索引是怎样的步骤9 被下单数最多商品(item)是什么?...转载 2019-03-14 18:53:09 · 9391 阅读 · 4 评论 -
Pandas基础命令速查清单
本文翻译整理自Pandas Cheat Sheet - Python for Data Science,结合K-Lab的工具属性,添加了具体的内容将速查清单里面的代码实践了一遍。目录缩写解释 & 库的导入数据的导入数据的导出创建测试对象数据的查看与检查数据的选取数据的清洗数据的过滤(filter),排序(sort)和分组(groupby)数据的连接(...转载 2019-03-14 18:52:51 · 370 阅读 · 0 评论