2018年04月_不论如何未来很美好

原创 scipy实现k-means算法

继上次了解并亲自编写了k-means算法后，总想找个简单的方法来实现它，毕竟这是个很基础很简单的聚类算法。终于在学习了scipy的一部分知识后，能够实现利用scipy来实现k-means了，并且我将两个方法做了简单的比较，发现数据较小时差别并不大，而且scipy方法更稳定一点。下面实现方法和代码：SciPy库依赖于NumPy，它提供了便捷且快速的N维数组操作。并且SciPy提供了覆盖包含了不同不同...

2018-04-28 21:24:37 6070

原创 DataFrame交换列的顺序

DataFrame的列有时我们需要对添加的列或原来的列进行交换顺序。data = pd.DataFrame(np.arange(16).reshape(4,4),columns=list('abcd'))In [88]: dataOut[88]: a b c d0 0 1 2 31 4 5 6 72 8 9 10 113 ...

2018-04-26 15:35:35 40511 2

原创 python处理时间序列datetime、dateutil、to_datetime

不论是数据分析还是其它方面，对于时间格式的处理司空见惯，尤其是金融、气象、调查等方面，时间的应用是无处不在的。利用python来处理时间是十分方便的一种方式。python的datetime、dateutil模块和pandas的to_datetime都能够对时间进行很好的处理。各自也有各自的方法。对于时间的处理大多数都是：时间格式->str ...

2018-04-25 19:24:56 3225 3

原创 pandas的apply方法基础使用

pandas中利用apply来对数据进行处理十分常见，也十分的方便，原因在于apply方法可以调用函数：应用于dataframe的各个列这里借用了一位老师的图：（充分说明了group到apply的过程）In [45]: df = pd.DataFrame({'a':[1,2,1,2],'b':[3,4,5,6]})In [46]: dfOut[46]: a b0 ...

2018-04-25 17:55:21 6332

原创 pandas的DataFrame、Series删除列

Series方法与DataFrame差不多，这里只介绍后者如何使用，前者相似。df = pd.DataFrame(np.arange(12).reshape(3,4),columns=['A', 'B', 'C', 'D'])In [4]: dfOut[4]: A B C D0 0 1 2 31 4 5 6 72 8 9 10 11...

2018-04-24 10:59:01 44658 3

原创简单解释标准差

恶心人的数据分析：标准差能反映一个数据集的离散程度。方差单位和数据的单位不一致，没法使用。标准差和数据的单位一致，使用起来方便。数据集：[2、3、4、5、6]1：求平均数 (2+3+4+5+6)/5 = 20/5 = 42：求每个数与平均值的差平方的和 (2-4)^2 + (3-4)^2 + (4-4)^2 + (5-4)^2 + (6-4)^2 = 103：用差平...

2018-04-23 19:27:36 6182 1

原创 pandas修改DataFrame或Series的列名

在pandas中列名多我们来说很重要，因为它是数据集的一个索引标志，通过利用它可以准确定位信息。但是有时我们在某种条件下需要修改列名或序列名，不论是DataFrame还是Series：Series修改序列名：In [19]: k = pd.Series({'a':np.random.randint(10,size=5)})In [20]: kOut[20]:a [7, 9, 0, 9, ...

2018-04-21 16:20:30 30615 3

原创 pandas中loc、iloc、ix的区别和使用

在利用pandas处理数据时loc、iloc、ix对数据的操作很频繁，所以这里简单的介绍一下它们之间的区别和各自的使用。pandas的索引可归纳为3种.loc，标签索引（location）.iloc，位置索引（int-localtion）.ix，标签与位置混合索引对于ix先按标签索引尝试操作，然后再按照位置索引尝试操作注意 D...

2018-04-21 16:05:28 1348

原创 python简单实现k-means聚类算法

我对聚类算法的理解：将一堆，无划分的数据，通过它们之间的相似度进行划分。（简单粗暴^。^）根据上面的理解，K-means算法就能知名晓意了：就是将一堆无划分的样本数据，定义需要划分为K堆，然后通过每个样本数据点与中心点间的距离进行归簇。（在k-means中需要在划分前需指定中心点，这是它的缺点）下面是官方一点的说法：Ｋ-Means算法是最为经典的基于划分的聚簇方法，是十大经典数据挖掘算法之一。简单...

2018-04-20 16:52:51 2895

原创 scrapy的xpath无法匹配tbody标签

刚才在使用scrapy的xpath时遇到了一点问题，个人觉得很有意思，也是在无意中发现的，认为是个坑，也是个很有意思的问题，所以这里做个介绍和笔记。问题：使用scapy的xpath在匹配<tbody>位置时无法获取。（使用浏览器自带copy的xpach）我使用的charm浏览器，在检查元素时，直接copy了它的xpath表达式。但是当运行时，却始终没有获取到目的信息。使用它的表达式，你...

2018-04-18 16:24:16 5103 6

原创 pycharm运行和调试不显示结果

刚在虚拟机里面安装了pycharm，配置（setting）完后，新建一个py文件，键入"hello world"，竟然没有结果，虽然运行成功。pycharm太不友好了吧！然后开始找问题：1：有人说是文件名的问题，这个可能有，但是我没有改，我觉得我的这个很规范。2：pyqt的auto选项，试了一下没反应。3：还有人说版本问题，我check了最新版应该没问题，再装一次太麻烦了，也没有改。4：还有禁掉p...

2018-04-15 13:06:03 66961 11

原创 python的format函数

还在用%吗？快学会使用format吧！！！好处大大的有：1.不需要理会数据类型的问题，在%方法中%s只能替代字符串类型2.单个参数可以多次输出，参数顺序可以不相同3.填充方式十分灵活，对齐方式十分强大4.官方推荐用的方式，%方式将会在后面的版本被淘汰所以看完这篇文章后你又进击了一步：再说一句，我以前也一直使用%，这是在学习C语言的时候留下的“坏习惯”，当时就觉的很不方便。当然知识是需要活学活用的，...

2018-04-11 08:39:04 1182 1

原创绘制地图：图形化显示海地地震危机数据

再修改部分代码后，可执行代码如下：from mpl_toolkits.basemap import Basemapfrom pandas import DataFrame,Seriesimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltdef to_cat_list(catstr): str...

2018-04-04 16:10:49 1081

转载 python中*的作用

传递实参和定义形参（所谓实参就是调用函数时传入的参数，形参则是定义函数是定义的参数）的时候，你还可以使用两个特殊的语法：``*`` ** 。调用函数时使用* **test(*args)* 的作用其实就是把序列 args 中的每个元素，当作位置参数传进去。比如上面这个代码，如果 args 等于 (1,2,3) ，那么这个代码就等价于 test(1, 2, 3) 。test(**kwargs)** 的...

2018-04-03 19:40:02 3346

转载 Python列表推导式和生成器表达式的异同

和列表一样，列表推导式也采用方括号[]表示，并且用到了一个简写版的for循环，第一部分是一个生成结果列表元素的表达式，第二部分是一个输入表达式上的循环。阅读理解列表表达式的推荐做法是先从里面的for循环开始，向右查看是否有if条件，然后将推导式开始的那个表达式映射到每一个匹配的元素上去。[python] view plain copy>>> even_numbers = [x f...

2018-04-03 19:17:00 3556

原创错误、不一致数据处理（fuzzywuzzy函数的使用）

继前面几天的比赛后的又一场比赛（简单的数据处理）其一：做个学习的资料记录。其二：分享出来，供大家参考。这是关于当数据中存在差异数据或者输入错误的不一致数据的处理的问题。简单说一部分：有时候当我们在处理数据时，其中包含有一些大小写不一致，或者字母拼写有问题的错误，为了得到更为精确的数据集，我们需要对这部分的异常数据进行处理。import pandas as pd #导入相关的模块...

2018-04-02 19:55:25 7586

原创 python文件的编码和解码以及chardet模块使用

继上一篇文章后的一次比赛心得。其一：做个学习的资料记录。其二：分享出来，供大家参考。这是关于文件进行编码处理后同过python解码认知的问题。首先我们应该知道æ–‡å—åŒ–ã??、��等都是需要使用编码才能解读的字符，如果不使用正确的编码格式，那么始终无法进行字符的解读。我们看一个例子：before = "I'd recommend $, #, 你好 and नमस्ते" ...

2018-04-01 20:38:44 3255

昆兰.沃斯的博客