- 博客(8)
- 资源 (9)
- 收藏
- 关注
原创 Python之可变对象作为函数参数问题
在阅读博客文章时,看到一道有趣的题目,代码运行结果和自己理解的不一样,触及到了我的Python知识盲区,说明对Python的一些基础概念理解的不够深刻。个人认为这个知识点较为重要,在数据分析、软件等开发项目中,若出现此类问题,很难排查Bug,因此对这个知识点进行了一番探索,将相关原理和现象说明清楚。问题说明题目出自参考资料[1]中的第四题。代码如下,请推断下述代码的输出结果。def f(x, l=[]): for i in range(x): l.append(i * i
2021-05-30 13:37:51 714 1
原创 阅读笔记:利用Python进行数据分析第2版——第10章 数据聚合与分组运算
目录一、GroupBy机制二、数据聚合三、apply:一般性的“拆分-应用-合并”四、透视表和交叉表对数据集进行分组并对各组应用一个函数(无论是聚合还是转换),通常是数据分析工作中的重要环节。在将数据集加载、融合、准备好之后,通常就是计算分组统计或生成透视表。pandas提供了一个灵活高效的gruopby`功能,它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。在本章中,你将会学到:使用一个或多个键(形式可以是函数、数组或DataFrame列名)分割pandas对象。计算分组的概述统计,
2021-05-29 18:16:09 540 2
原创 阅读笔记:利用Python进行数据分析第2版——第9章 绘图和可视化
信息可视化(也叫绘图)是数据分析中最重要的工作之一。Python有许多库进行静态或动态的数据可视化,但我这里重要关注于matplotlib和基于它的库。matplotlib是一个用于创建出版质量图表的桌面绘图包(主要是2D方面)。该项目是由John Hunter于2002年启动的,其目的是为Python构建一个MATLAB式的绘图接口。matplotlib和IPython社区进行合作,简化了从IPython shell(包括现在的Jupyter notebook)进行交互式绘图。matplotlib支持各
2021-05-28 15:13:24 540 2
原创 阅读笔记:利用Python进行数据分析第2版——第8章 数据规整:聚合、合并和重塑
在许多应用中,数据可能分散在许多文件或数据库中,存储的形式也不利于分析。本章关注可以聚合、合并、重塑数据的方法。首先,我会介绍pandas的层次化索引,它广泛用于以上操作。然后,我深入介绍了一些特殊的数据操作。
2021-05-25 16:24:43 316
原创 阅读笔记:利用Python进行数据分析第2版——第7章 数据清洗和准备
本章讨论处理缺失数据、重复数据、字符串操作和其它分析数据转换的工具。处理缺失数据对于数值数据,pandas使用浮点值NaN(Not a Number)表示缺失数据。我们称其为哨兵值,可以方便的检测出来:string_data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado'])string_data.isnull()在pandas中,我们采用了R语言中的惯用法,即将缺失值表示为NA,它表示不可用not available。
2021-05-24 09:18:31 294
原创 阅读笔记:利用Python进行数据分析第2版——第6章 数据加载、存储与文件格式
输入输出通常可以划分为几个大类:读取文本文件和其他更高效的磁盘存储格式,加载数据库中的数据,利用Web API操作网络资源。pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。read_csv和read_table是最为常用的。这些函数的选项可以划分为以下几个大类:索引:将一个或多个列当做返回的DataFrame处理,以及是否从文件、用户获取列名。类型推断和数据转换:包括用户定义值的转换、和自定义的缺失值标记列表等。日期解析:包括组合功能,比如将分散在多个列中的日期时间信
2021-05-22 23:41:58 366 2
原创 阅读笔记:利用Python进行数据分析第2版——第5章 pandas入门
pandas经常和其它工具一同使用,如数值计算工具NumPy和SciPy,分析库statsmodels和scikit-learn,和数据可视化库matplotlib。pandas是基于NumPy数组构建的,特别是基于数组的函数和不使用for循环的数据处理。SeriesSeries是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型) 以及一组与之相关的数据标签(即索引)组成。import pandas as pdfrom pandas import Series, DataFrame
2021-05-22 16:15:59 254
原创 阅读笔记:利用Python进行数据分析第2版——第4章 Numpy基础:数组和矢量计算
大小相等的数组之间的任何算术运算都会将运算应用到元素级。数组与标量的算术运算会将标量值传播到各个元素。大小相同的数组之间的比较会生成布尔值数组。不同大小的数组之间的运算叫做广播( broadcasting),当你将一个标量值赋值给一个切片时( 如arr[5:8]=12),该值会自动传播( 也就说后面将会讲到的“广播”)到整个选区。跟列表最重要的区别在于,数组切片是原始数组的视图。 这意味着数据不会被复制,视图上的任何修改都会直接反映到源数组上。如果你想要得到的是ndarray切片的一份副本而非视.
2021-05-19 15:42:22 1304 1
python利用百度地图API进行地理编码(将地名转换为经纬度)
2017-05-20
tensorflow----tf_upgrade.py
2017-03-14
python实现kaggle中的数字识别
2016-12-28
c++实现huffman哈夫曼编码
2016-10-27
快速排序+归并排序+c++
2016-10-27
道格拉斯普克算法的C++实现
2016-05-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人