利用python进行数据分析
利用python进行数据分析
TigaFeng
这个作者很懒,什么都没留下…
展开
-
第9章 绘图和可视化
9.1 matplotlib API入门Figure和Subplotfig = plt.figure():创建一个新的Figure创建子图ax1 = fig.add_subplot(2, 2, 1)解释:图像有2 * 2 个子图,当前选中的4个子图中的第一个(编号从1开始)。调整subplot周围的间距默认情况下,matplotlib会在subplot外围留下一定的边距,并在subplot之间留下一 定的间距。间距跟图像的高度和宽度有关,因此,如果你调整了图像大小(不管是 编程还是手工原创 2020-10-26 21:18:25 · 171 阅读 · 0 评论 -
第8章 数据规整:聚合,合并和重塑
8.1 层次化索引层次化索引,让你能在一个轴上拥有多个索引级别。让你能以低维度形式处理高维度数据。原创 2020-10-26 21:18:07 · 199 阅读 · 0 评论 -
第6章 数据加载,存储与文件格式
6.1 读写文本格式的数据读取数据函数的选项可分为以下几大类:索引: 将一个或多个列当做返回的DataFrame处理,以及是否从文件、用户获 取列名。类型推断和数据转换:包括用户定义值的转换、和自定义的缺失值标记列表 等。日期解析:包括组合功能,比如将分散在多个列中的日期时间信息组合成结果 中的单个列。迭代:支持对大文件进行逐块迭代。不规整数据问题:跳过一些行、页脚、注释或其他一些不重要的东西(比如由 成千上万个逗号隔开的数值数据)。逐块读取文本文件读大文件之前,先设置最大的显示行数原创 2020-10-26 21:17:45 · 101 阅读 · 0 评论 -
第7章 数据清洗和准备
7.1 处理缺失数据np.nan: 表示缺失数据,可通过isnull()函数检测出理缺失数据的函数滤除缺失数据通过dropna方法,返回一个近含非空数据和索引值的Series等价于dropna默认丢弃任何含有na的行,通过传入how = all将只丢弃全为NA的那些行。thresh参数可设置清洗的阈值填充缺失数据主要方法是fillna方法,通过df.fillna(0)方法将缺失值设置为0若是通过一个字典调用fillna,就可以实现对不同的列填充不同的值:fillna默认会返原创 2020-10-26 21:18:55 · 143 阅读 · 0 评论 -
第5章 pandas入门
5.1 pandas的数据结构介绍pandas有两个数据结构:Series 和 DataFrameSeriesSeries是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及 一组与之相关的数据标签(即索引)组成。Series的字符串表现形式为: 索引在左边,值在右边。.values返回值,.index返回索引值obj = pd.Series([4, 7, -5, 3])>> obj>0 4 1 7 2 -5 3 3 dtype: int64原创 2020-10-21 10:49:45 · 258 阅读 · 2 评论 -
第四章 Numpy 基础:数组和矢量运算
4.1 Numpy 的ndarry: 一种多维数组对象Numpy 最重要的就是N维数组对象------ndarray。ndarray是一个通用的同构数据多维容器,即其中所有的元素必须是相同类型的。每个数组都有一个shape 和 dtype(说明数组数据类型的对象)创建ndarrayarray函数用于创建数组,接受一切序列型的对象。data1 = [6, 7.5, 8, 0, 1]arr1 = np.array(data1)>> arr1 = array([ 6. , 7.5, 8.原创 2020-10-20 11:16:26 · 232 阅读 · 0 评论 -
第三章 Python的数据结构,函数和文件
3.1 数据结构和序列元组元组是一个固定长度的,不可改变的Python序列对象。一旦创建了元组,元组中的对象就不能修改,除非元组中的对象是可变对象,比如list。tup = tuple(['foo', [1,2],True)tup[1].append(3)tup == > ('foo', [1,2,3],True)元组的复制串联('foo', 'bar') * 4>> ('foo', 'bar','foo', 'bar','foo', 'bar','foo', 'bar'原创 2020-10-19 13:52:23 · 213 阅读 · 0 评论