2021年05月_Marvin Ming

09月 08月 07月 05月

原创 Python之可变对象作为函数参数问题

在阅读博客文章时，看到一道有趣的题目，代码运行结果和自己理解的不一样，触及到了我的Python知识盲区，说明对Python的一些基础概念理解的不够深刻。个人认为这个知识点较为重要，在数据分析、软件等开发项目中，若出现此类问题，很难排查Bug，因此对这个知识点进行了一番探索，将相关原理和现象说明清楚。问题说明题目出自参考资料[1]中的第四题。代码如下，请推断下述代码的输出结果。def f(x, l=[]): for i in range(x): l.append(i * i

2021-05-30 13:37:51 714 1

原创阅读笔记：利用Python进行数据分析第2版——第10章数据聚合与分组运算

目录一、GroupBy机制二、数据聚合三、apply：一般性的“拆分－应用－合并”四、透视表和交叉表对数据集进行分组并对各组应用一个函数（无论是聚合还是转换），通常是数据分析工作中的重要环节。在将数据集加载、融合、准备好之后，通常就是计算分组统计或生成透视表。pandas提供了一个灵活高效的gruopby`功能，它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。在本章中，你将会学到：使用一个或多个键（形式可以是函数、数组或DataFrame列名）分割pandas对象。计算分组的概述统计，

2021-05-29 18:16:09 540 2

原创阅读笔记：利用Python进行数据分析第2版——第9章绘图和可视化

信息可视化（也叫绘图）是数据分析中最重要的工作之一。Python有许多库进行静态或动态的数据可视化，但我这里重要关注于matplotlib和基于它的库。matplotlib是一个用于创建出版质量图表的桌面绘图包（主要是2D方面）。该项目是由John Hunter于2002年启动的，其目的是为Python构建一个MATLAB式的绘图接口。matplotlib和IPython社区进行合作，简化了从IPython shell（包括现在的Jupyter notebook）进行交互式绘图。matplotlib支持各

2021-05-28 15:13:24 540 2

原创阅读笔记：利用Python进行数据分析第2版——第8章数据规整：聚合、合并和重塑

在许多应用中，数据可能分散在许多文件或数据库中，存储的形式也不利于分析。本章关注可以聚合、合并、重塑数据的方法。首先，我会介绍pandas的层次化索引，它广泛用于以上操作。然后，我深入介绍了一些特殊的数据操作。

2021-05-25 16:24:43 316

原创阅读笔记：利用Python进行数据分析第2版——第7章数据清洗和准备

本章讨论处理缺失数据、重复数据、字符串操作和其它分析数据转换的工具。处理缺失数据对于数值数据，pandas使用浮点值NaN（Not a Number）表示缺失数据。我们称其为哨兵值，可以方便的检测出来：string_data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado'])string_data.isnull()在pandas中，我们采用了R语言中的惯用法，即将缺失值表示为NA，它表示不可用not available。

2021-05-24 09:18:31 294

原创阅读笔记：利用Python进行数据分析第2版——第6章数据加载、存储与文件格式

输入输出通常可以划分为几个大类：读取文本文件和其他更高效的磁盘存储格式，加载数据库中的数据，利用Web API操作网络资源。pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。read_csv和read_table是最为常用的。这些函数的选项可以划分为以下几个大类：索引：将一个或多个列当做返回的DataFrame处理，以及是否从文件、用户获取列名。类型推断和数据转换：包括用户定义值的转换、和自定义的缺失值标记列表等。日期解析：包括组合功能，比如将分散在多个列中的日期时间信

2021-05-22 23:41:58 366 2

原创阅读笔记：利用Python进行数据分析第2版——第5章 pandas入门

pandas经常和其它工具一同使用，如数值计算工具NumPy和SciPy，分析库statsmodels和scikit-learn，和数据可视化库matplotlib。pandas是基于NumPy数组构建的，特别是基于数组的函数和不使用for循环的数据处理。SeriesSeries是一种类似于一维数组的对象，它由一组数据（各种NumPy数据类型）以及一组与之相关的数据标签（即索引）组成。import pandas as pdfrom pandas import Series, DataFrame

2021-05-22 16:15:59 254

原创阅读笔记：利用Python进行数据分析第2版——第4章 Numpy基础：数组和矢量计算

大小相等的数组之间的任何算术运算都会将运算应用到元素级。数组与标量的算术运算会将标量值传播到各个元素。大小相同的数组之间的比较会生成布尔值数组。不同大小的数组之间的运算叫做广播（ broadcasting），当你将一个标量值赋值给一个切片时（如arr[5:8]=12），该值会自动传播（也就说后面将会讲到的“广播”）到整个选区。跟列表最重要的区别在于，数组切片是原始数组的视图。这意味着数据不会被复制，视图上的任何修改都会直接反映到源数组上。如果你想要得到的是ndarray切片的一份副本而非视.

2021-05-19 15:42:22 1304 1

openlayer使用方位坐标系显示北极地区

openlayer使用方位坐标系显示北极地区地图 openlayer使用方位坐标系显示北极地区地图

2017-10-11

谷歌GDELT数据下载

代码有注释，数据说明看我博客。没分的可以直接去我博客中复制。代码有注释，数据说明看我博客。

2017-09-22

python利用百度地图API进行地理编码（将地名转换为经纬度）

介绍了如何在百度地图API申请密钥，然后在Python中调用API接口将自有数据中的地名转换为经纬度坐标。具体介绍可参照我的博客。

2017-05-20

tensorflow实现AlexNet训练mnist数据

tensorflow实现AlexNet训练mnist数据python代码

2017-05-07

tensorflow----tf_upgrade.py

在github下载的tf_upgrade.py在升级代码时会报错（本人系统是win10 64位，安装的是tensorflow1.0），对源代码520行进行修改后可以输出结果，但是输出后的文件在win10下直接运行会报错，将文件里的内容复制到新建的py文件中即可运行。

2017-03-14

python实现kaggle中的数字识别

python语言实现kaggle中的数字挖掘入门实例数字识别，附代码用到的数据与算法运行得到的结果，算法运行时间大概为4小时左右，主要是因为knn算法计算量较大。

2016-12-28

c++实现huffman哈夫曼编码

利用c++实现了Huffman编码，并对代码进行了注释，保证可读性。 {4,2,13,3,7,10,8,23,22,35,52,31} 下面是编码结果：第1个数的huffman编码是：00000 第2个数的huffman编码是：000010 第3个数的huffman编码是：0110 第4个数的huffman编码是：000011 第5个数的huffman编码是：01110 第6个数的huffman编码是：0001 第7个数的huffman编码是：01111 第8个数的huffman编码是：010 第9个数的huffman编码是：001 第10个数的huffman编码是：111 第11个数的huffman编码是：10 第12个数的huffman编码是：110

2016-10-27

快速排序+归并排序+c++

计算机算法课程的作业，用c++实现了归并排序和快速排序，并比较了两种算法的速度。测试数据为随机生成，可设置为10万、100万、1000万大小的数组。在代码中提供了详细的注释，在容易出错的地方进行了解释。下面是得到的输出结果。 the array num is :1000000 The mergesort run time is:15931ms! The quicksort run time is:234ms! the array num is :10000000 The mergesort run time is:15756ms! The quicksort run time is:2527ms!

2016-10-27

道格拉斯普克算法的C++实现

打开txt文件，读取其中的坐标数据，并利用DP算法进行简化。其中，txt文件是由shp文件转化而来，有不同的线对象，每个线对象有各自的很多坐标点，简化时是根据每个线对象进行简化，输出的数据与原数据格式相同，可转化回shp数据进行显示。shp、txt格式之间相互转换的工具在CSDN上面有，用户可另行下载，亲测可以用，程序运行所需的相关数据已一并打包。有任何问题欢迎留言。

2016-05-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人