Python数据分析
No_Game_No_Life_
这个作者很懒,什么都没留下…
展开
-
利用Python进行数据分析——重要的Python库
重要的Python库NumPyNumerical Python的简称,它是科学计算的基础包。今后学习的大部分内容都是基于NumPy以及构建于其上的库。它提供了以下的功能(主要的):快速高效的多维数组对象ndarray用于对数组执行元素级计算以及直接对数组执行数学运算的函数用于读写硬盘上数组的数据集的工具线性代数运算、傅立叶变换,以及随机数生成用于将C、C++、Fortran代...原创 2019-01-11 10:37:21 · 1449 阅读 · 0 评论 -
利用Python进行数据分析——数据规整化
数据分析和建模方面的大量编程工作都是用在数据准备上的:加载、清理、转换以及重塑。有时候,存放在文件或数据库中的数据并不能满足你的数据处理应用的要求。合并数据集数据库风格的DataFrame合并数据集的合并(merge)或连接(join)运算是通过一个或多个键将行链接起来的。这些运算是关系型数据库的核心。pandas的merge函数是对数据应用这些算法的主要切入点。from panda...原创 2019-01-21 13:37:27 · 602 阅读 · 0 评论 -
利用Python进行数据分析——数据加载、存储与文件格式
输入输出通常可以划分为几个大类:读取文本文件和其他更高效的磁盘存储格式,加载数据库中的数据,利用Web API操作网络资源。因为其简单的文件交互语法、直观的数据结构,以及诸如元组打包解包之类的便利功能,Python在文本和文件处理方面已经成为一门招人喜欢的语言。读写文本格式的数据本文将大致介绍一下这些函数在将文本数据转换为DataFrame时所用到的一些技术。这些函数的选项可以划分为以下几...原创 2019-01-21 10:32:37 · 770 阅读 · 0 评论 -
利用Python进行数据分析——Pandas(4)
层次化索引层次化索引(hierarchical indexing)是pandas的一项重要功能,它使你能在一个轴上拥有多个(两个以上)索引级别。抽象点说,它使你能以低维度形式处理高维度数据。我们先来看一个简单的例子:创建一个Series,并用一个由列表或数组组成的列表作为索引。from pandas import Seriesimport numpy as npdata = Series(...原创 2019-01-21 09:23:56 · 411 阅读 · 0 评论 -
利用Python进行数据分析——NumPy范例
范例:随机漫步我们通过模拟随机漫步来说明如何运用数组运算。先来看一个简单的随机漫步的例子:从0开始,步长1和-1出现的概率相等。我们通过内置的random模块以纯Python的方式实现1000步的随机漫步:import randomposition=0walk=[position]steps=1000for i in range(steps): step=1 if random...原创 2019-01-14 16:09:48 · 1371 阅读 · 1 评论 -
利用Python进行数据分析——NumPy(3)
用于数组的文件输入输出NumPy能够读写磁盘上的文本数据或二进制数据。后面的章节将会告诉你一些pandas中用于将表格型数据读取到内存的工具。将数组以二进制格式保存到磁盘np.save和np.load是读写磁盘数组数据的两个主要函数。默认情况下,数组是以未压缩的原始二进制格式保存在扩展名为.npy的文件中的。import numpy as nparr=np.arange(10)np....原创 2019-01-14 14:51:55 · 491 阅读 · 0 评论 -
利用Python进行数据分析——NumPy(2)
通用函数:快速的元素级数组函数通用函数(即ufunc)是一种对ndarray中的数据执行元素级运算的函数。你可以将其看做简单函数(接受一个或多个标量值,并产生一个或多个标量值)的矢量化包装器。许多ufunc都是简单的元素级变体,如sqrt(求平方根)和exp(求指数):import numpy as nparr=np.arange(10)print(arr)print(np.sqrt(...原创 2019-01-14 14:01:28 · 942 阅读 · 0 评论 -
利用Python进行数据分析——NumPy(1)
IPython基础IPython的开发者吸收了标准解释器的基本概念,在此基础上进行了大量的改进,创造出一个令人惊奇的工具。在它的主页上是这么说的:“这是一个增强的交互式Python shell。”具有tab补全,对象自省,强大的历史机制,内嵌的源代码编辑,集成Python调试器,%run机制,宏,创建多个环境以及调用系统shell的能力。不过我们使用Pycharm,所以跳过学习。NumPy...原创 2019-01-14 10:48:14 · 715 阅读 · 0 评论 -
利用Python进行数据分析——Pandas(3)
函数应用和映射umPy的ufuncs(元素级数组方法)也可用于操作pandas对象:另一个常见的操作是,将函数应用到由各列或行所形成的一维数组上。DataFrame的apply方法即可实现此功能:许多最为常见的数组统计功能都被实现成DataFrame的方法(如sum和mean),因此无需使用apply方法。除标量值外,传递给apply的函数还可以返回由多个值组成的Series:...原创 2019-01-18 10:43:02 · 462 阅读 · 0 评论 -
利用Python进行数据分析——Pandas(2)
索引对象pandas的索引对象负责管理轴标签和其他元数据(比如轴名称等)。构建Series或DataFrame时,所用到的任何数组或其他序列的标签都会被转换成一个Index:obj=Series(range(3),index=['a','b','c'])index=obj.indexprint(index[:])#outputIndex(['a', 'b', 'c'], dtype=...原创 2019-01-17 10:34:18 · 601 阅读 · 0 评论 -
利用Python进行数据分析——python数据分析初窥
本文将要向你介绍的是用于高效处理数据的Python工具。虽然读者各自工作的最终目的千差万别,但基本都需要完成以下几个大类的任务:与外界进行交互读写各种各样的文件格式和数据库。准备对数据进行清理、修整、整合、规范化、重塑、切片切块、变形等处理以便进行分析。转换对数据集做一些数学和统计运算以产生新的数据集。比如说,根据分组变量对一个大表进行聚合。建模和计算将数据跟统计模型、机器学习算...原创 2019-01-11 14:45:15 · 1039 阅读 · 0 评论 -
利用Python进行数据分析——Pandas(1)
pandas是本书后续内容的首选库。它含有使数据分析工作变得更快更简单的高级数据结构和操作工具。pandas是基于NumPy构建的,让以NumPy为中心的应用变得更加简单。pandas的数据结构介绍要使用pandas,你首先就得熟悉它的两个主要数据结构:Series和DataFrame。虽然它们并不能解决所有问题,但它们为大多数应用提供了一种可靠的、易于使用的基础。SeriesSer...原创 2019-01-16 15:52:55 · 452 阅读 · 1 评论