数据分析
pyStar_公众号
做技术,要胆大心细
展开
-
matplotlib介绍
http://old.sebug.net/paper/books/scipydoc/matplotlib_intro.htmlmatplotlib 属于第三方库,首先安装:pip install matplotlib我用的是 pylab 模式下的 ipython : ipython --pylabmatplotlib API 函数都位于matplotlib.pylot 模块下,导入:i...原创 2018-06-21 14:00:06 · 725 阅读 · 0 评论 -
python, numpy, pandas 中对文件数据的处理
在数据分析中,我们需要把磁盘中的数据导入导出到系统,python,numpy,pandas中都提供了对数据的读取操作,这里介绍 pandas 中将表格型数据读取为 Dataframe 对象的函数。Parsing functions in pandas:Function Descriptionread_csv Load delimited data fro...原创 2018-06-19 12:45:04 · 3074 阅读 · 0 评论 -
pandas之数据聚合与分组运算
这部分可以用三个单词概括: split(拆分)--->apply(应用)--->combine(合并)split:pandas对象中的数据根据你提供的一个或多个键被拆分为多组,在特定的轴上操作。apply:将一个函数应用到各个分组产生一个新值。combine: 将apply执行的结果合并到最终的结果对象中。用图直观描述一下:分组键可以有多种形式,且类型不必相同:列表或数组,其长度与待分...原创 2018-06-25 20:08:27 · 781 阅读 · 0 评论 -
pandas之时间序列
对于时间序列的处理在数据处理方面还是比较重要的一块。这篇来记录一下时间序列的一些知识点。python标准库包含日期(date)和时间(time)数据的数据类型。经常使用的也就是datetime、time以及calendar模块。datetime以毫秒形式存储日期和时间。datetime模块中的数据类型date以公历形式存储日历日期(年、月、日)time将时间存储为时、分、秒、毫秒datetime存...原创 2018-06-25 15:29:05 · 775 阅读 · 0 评论 -
numpy之广播
广播的原则: 如果两个数组的后缘维度(从末尾开始算起的维度)的轴长度相符或其中一方的长度为1,则认为他们是广播兼容的。广播会在缺失和(或)长度为1的维度长进行。看几个例子理解一下:In [223]: arr = np.arange(4)In [224]: arrOut[224]: array([0, 1, 2, 3])In [225]: arr*3 #...原创 2018-06-25 12:01:36 · 518 阅读 · 0 评论 -
pandas之数据转换
pandas中的数据转换包括过滤、清理等去除重复数据duplicated() 判断各行是否是重复行drop_duplicated() 移除重复行(保留第一次出现的)没啥好说的,直接看例子:In [20]: s = pd.DataFrame({'key':['a']*4+['b']*3,'key0':[1,1,2 ...: ,3,3,4,4]})In [21]: s.duplicat...原创 2018-06-24 18:47:32 · 3818 阅读 · 0 评论 -
pandas重塑层次化索引
在处理数据时,我们有时需要对数据的结构进行重排,也可称作是重塑(reshape)或者轴向旋转(pivot)。 层次化索引为Dataframe的数据重排提供了良好的一致性的方式。功能有二: stack:将数据的列旋转为行unstack:将数据的行旋转为列 看几个简单的例子解释一下: In [15]: data = pd.DataFrame(np.arange(6).resh...原创 2018-06-24 12:29:32 · 1117 阅读 · 0 评论 -
Numpy的简单介绍
Array(数组)》rank 数组的维数import numpy as npa = np.array([1,2,3])a.shape #(3,) 明确指定a的维数 a = a.reshape((1,-1)) , 其中-1是个占位符,不表示任何意义a.shape #(1,3)np.ones(),np.zeros()函数均可由full()函数替代 a = np.full((3,3),0)...原创 2018-06-14 14:58:03 · 484 阅读 · 0 评论 -
pandas之Series和Dataframe简单介绍
做笔记永远都是一个好习惯。俗话说:好记性不胜个烂笔头。大家看书的时候,是不是总有种感受,即使当时感觉理解了、记住了,隔几天就会忘记吧(呵呵,也可能是我太笨)。不管怎么说,随着我们看的书,学的技术(我专业计算机)越来越多,知识点也会零零散散的一大堆,当我们在以后的生活、工作中,需要用到以前学的知识时,会感觉它熟悉又陌生,这个时候我们就不得不翻出以前的书或者百度一下,Google一下,去...原创 2018-06-15 11:25:41 · 668 阅读 · 0 评论 -
pandas之基本功能
pandas 的官方文档:http://pandas.pydata.org/pandas-docs/stable/indexing.html1. 重新索引 作用:创建一个适应新索引的新对象,会根据新索引对原数据进行重排,如果是新引入的索引,则会引入缺失值(也可用 fill_value 指定填充值)。reindex 的函数参数:indexNew sequence to use as inde...原创 2018-06-18 10:26:10 · 5130 阅读 · 0 评论 -
numpy的深入学习
前面有一篇介绍了numpy的基础,这里将介绍numpy的一些高级应用。其实也包括一些常用的操作。 先看一下numpy中 最重要的对象 ndarray 的内部组成: 1)一个指向数组的指针 2)数据类型(dtype) 3) 表示数组形状的元组(shape) 4)一个跨度元组(stride), 指的是当前元素与当前维度的下一个元素之间的...原创 2018-06-20 10:53:22 · 761 阅读 · 0 评论 -
numpy的ufunc
介绍点高级的东西,numpy中的ufunc。ufunc(universal function)能够作用于narray对象上的元素级函数,这些函数在对narray对象进行运算的速度比使用循环或者列表推导式要快很多。numpy中的ufunc函数:python 中的逻辑运算and、or、not 在numpy中均以以logical_开头。ufunc方法ufunc函数对象本身还有一些方法函数,这些方法只对两...原创 2018-06-20 12:59:15 · 3545 阅读 · 0 评论 -
pandas之数据合并
在数据处理中,不免会遇到数据之间的合并。学过关系数据库的童鞋应该都清楚数据表之间的连接。今天要说的数据合并其实和数据表之间的连接有很多相似之处。由于 pandas 库在数据分析中比较方便而且用者较多,我们就说pandas中的数据合并方式。 pandas 中数据合并常用的方法有三种:pandas.merge(), pandas.concat(), 以及实例方法 combine_...原创 2018-06-23 13:38:07 · 11912 阅读 · 1 评论 -
pandas绘图介绍
http://pandas.pydata.org/pandas-docs/stable/visualization.html#原创 2018-06-26 19:14:48 · 613 阅读 · 0 评论