数据分析工具
文章平均质量分 79
LZH_12345
这个作者很懒,什么都没留下…
展开
-
python之matplotlib实现绘图和可视化
绘图是数据分析工作中最重要的任务之一,是探索过程的一部分。python为我们提供了许多可视化工具,最常用的的是matplotlib。matplotlib是一种用于创建出版质量图标的桌面绘图包(主要是2D方面),它为python构建了一个MATLAB式的绘图接口。它不仅支持各种操作系统上许多不同的GUI后端,而且还能将图片导出为各种常见的矢量和光栅图:PDF、SVG、JPG、PNG、BMP、GIF等...原创 2018-04-07 22:38:48 · 1846 阅读 · 0 评论 -
python之pandas中的绘图函数
pandas中的绘图函数matplotlib实际上是一种比较低级的工具。要组装一张图表,你得用它的各种基础组件才行:数据展示(即:图表类型:线型图、柱状图、盒形图、散布图、等值线图等)、图例、标签、刻度标签以及其他注解型信息。根据数据制作一张完整图表通常都需要用到多个对象。在pandas中,我们有行标签、列标签以及分组信息(可能有)。原本利用matplotlib,制作完整图表,需要大量代码,但现在...原创 2018-04-08 15:36:08 · 1519 阅读 · 0 评论 -
python之数据聚合及分组运算
对数据集进行分组并对各组应用一个函数(无论是聚合还是转换),这是数据分析工作中的重要环节。在将数据集准备好之后,通常的任务就是计算分组统计或生成透视表。pandas提供了一个灵活高效的groupby功能,它使你能以以一种自然的方式对数据集进行切片、切块、摘要等操作。一、GroupBy技术“split-apply-combine”(拆分-应用-合并),很好的描述了分组运算的整个过程,如下图所示。第一...原创 2018-04-09 21:26:13 · 709 阅读 · 0 评论 -
python之numpy的用法
numpy是高性能科学计算和数据分析的基础包。其部分功能如下:ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。用于对整组数据进行快速运算的标准数学函数(无需编写循环)。用于读写磁盘数据的工具以及用于操作内存映射文件的工具。线性代数、傅里叶变换和随机数生成功能。用于集成由C/C++和Fortran等语言编写的代码的工具。numpy提供了一个简单易用的C API,因此很容...原创 2018-04-02 21:32:48 · 844 阅读 · 0 评论 -
python之pandas用法详解
pandas是基于numpy构建的,使得数据分析工作变得更快更简单的高级数据结构和操作工具。一、pandas数据结构两个主要的数据结构:Series和DataFrame。1.1 SeriesSeries是一种类似于一维数组的对象,它由一维数组(各种numpy数据类型)以及一组与之相关的数据标签(即索引)组成,仅由一组数据即可产生最简单的Series.Series的字符串表现形式为:索引在左边,值在...原创 2018-04-04 11:57:11 · 25728 阅读 · 4 评论 -
python之时间序列
不管在哪个领域中(如金融学、经济学、生态学、神经科学、物理学等),时间序列(time series)数据都是一种重要的结构化数据形式。在多个时间点观察或测量到的任何事物都可以形成一段时间序列。很多时间序列都是固定频率的,也就是说,数据点是根据某种规律定期出现的(比如每15秒、每5分钟、每个月出现一次)。时间序列也可以是不定期的。时间序列数据的意义取决于具体的应用场景,主要有以下几种:时间戳(tim...原创 2018-04-10 20:29:07 · 2229 阅读 · 0 评论 -
python之利用pandas进行数据加载/存储
一、读写文本格式的数据1.1 从文件、URL等对象中读写数据pandas提供了一些用于将表格型数据读取为DataFrame对象的函数:最常用的两个函数:read_csv和read_table,这两个函数参数及其说明如下:#从文本文件中读取数据df=pd.read_csv('data.csv') #数据自带列名#等效于#sep指分隔符,对于不是固定的分隔符时,可以编写正则表达式作为分隔符...原创 2018-04-04 18:13:00 · 1654 阅读 · 0 评论 -
python之数据的合并和重塑
一、数据的合并pandas对象中的数据可以通过一些内置的方式进行合并:pandas.merge可根据一个或多个键将不同DataFrame中的行连接起来。SQL或其他关系型数据库的用户对此应该会比较熟悉,因为它实现的就是数据库的连接操作。pandas.concat可以沿着一条轴将多个对象堆叠到一起。实例方法combine_first可以将重复数据编接在一起,用一个对象中的值填充另一个对象中的缺失值。...原创 2018-04-05 22:53:36 · 849 阅读 · 0 评论 -
python之数据的转换及字符串操作
数据的过滤、清理和其他转换工作也是数据规整化的一大类操作。一、移除重复数据duplicated方法返回的是一个布尔型Series,表示各行是否是重复行,默认判断全部列且默认第一个出现值为Truedrop_duplicates方法移除重复行,默认判断全部列,默认保留第一个出现的值data=DataFrame({'k1':['one']*3+['two']*4,'k2':[1,1,2,3,3,4,4]...原创 2018-04-07 14:51:20 · 3025 阅读 · 0 评论