自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

昆兰.沃斯 的博客

贵有恒,何必三更起五更眠;最无益,只怕一日暴十寒

  • 博客(17)
  • 收藏
  • 关注

原创 scipy实现k-means算法

继上次了解并亲自编写了k-means算法后,总想找个简单的方法来实现它,毕竟这是个很基础很简单的聚类算法。终于在学习了scipy的一部分知识后,能够实现利用scipy来实现k-means了,并且我将两个方法做了简单的比较,发现数据较小时差别并不大,而且scipy方法更稳定一点。下面实现方法和代码:SciPy库依赖于NumPy,它提供了便捷且快速的N维数组操作。并且SciPy提供了覆盖包含了不同不同...

2018-04-28 21:24:37 6070

原创 DataFrame交换列的顺序

DataFrame的列有时我们需要对添加的列或原来的列进行交换顺序。data = pd.DataFrame(np.arange(16).reshape(4,4),columns=list('abcd'))In [88]: dataOut[88]: a b c d0 0 1 2 31 4 5 6 72 8 9 10 113 ...

2018-04-26 15:35:35 40511 2

原创 python处理时间序列datetime、dateutil、to_datetime

不论是数据分析还是其它方面,对于时间格式的处理司空见惯,尤其是金融、气象、调查等方面,时间的应用是无处不在的。利用python来处理时间是十分方便的一种方式。python的datetime、dateutil模块和pandas的to_datetime都能够对时间进行很好的处理。各自也有各自的方法。对于时间的处理大多数都是:                        时间格式->str   ...

2018-04-25 19:24:56 3225 3

原创 pandas的apply方法基础使用

pandas中利用apply来对数据进行处理十分常见,也十分的方便,原因在于apply方法可以调用函数:        应用于dataframe的各个列这里借用了一位老师的图:(充分说明了group到apply的过程)In [45]: df = pd.DataFrame({'a':[1,2,1,2],'b':[3,4,5,6]})In [46]: dfOut[46]: a b0 ...

2018-04-25 17:55:21 6332

原创 pandas的DataFrame、Series删除列

Series方法与DataFrame差不多,这里只介绍后者如何使用,前者相似。df = pd.DataFrame(np.arange(12).reshape(3,4),columns=['A', 'B', 'C', 'D'])In [4]: dfOut[4]: A B C D0 0 1 2 31 4 5 6 72 8 9 10 11...

2018-04-24 10:59:01 44658 3

原创 简单解释标准差

恶心人的数据分析:标准差能反映一个数据集的离散程度。方差单位和数据的单位不一致,没法使用。标准差和数据的单位一致,使用起来方便。数据集:[2、3、4、5、6]1:求平均数        (2+3+4+5+6)/5 = 20/5 = 42:求每个数与平均值 的差平方 的和        (2-4)^2 + (3-4)^2 + (4-4)^2 + (5-4)^2 + (6-4)^2 = 103:用差平...

2018-04-23 19:27:36 6182 1

原创 pandas修改DataFrame或Series的列名

在pandas中列名多我们来说很重要,因为它是数据集的一个索引标志,通过利用它可以准确定位信息。但是有时我们在某种条件下需要修改列名或序列名,不论是DataFrame还是Series:Series修改序列名:In [19]: k = pd.Series({'a':np.random.randint(10,size=5)})In [20]: kOut[20]:a [7, 9, 0, 9, ...

2018-04-21 16:20:30 30615 3

原创 pandas中loc、iloc、ix的区别和使用

在利用pandas处理数据时loc、iloc、ix对数据的操作很频繁,所以这里简单的介绍一下它们之间的区别和各自的使用。pandas的索引可归纳为3种.loc,标签索引             (location).iloc,位置索引            (int-localtion).ix,标签与位置混合索引        对于ix先按标签索引尝试操作,然后再按照位置索引尝试操作注意    D...

2018-04-21 16:05:28 1348

原创 python简单实现k-means聚类算法

我对聚类算法的理解:将一堆,无划分的数据,通过它们之间的相似度进行划分。(简单粗暴^。^)根据上面的理解,K-means算法就能知名晓意了:就是将一堆无划分的样本数据,定义需要划分为K堆,然后通过每个样本数据点与中心点间的距离进行归簇。(在k-means中需要在划分前需指定中心点,这是它的缺点)下面是官方一点的说法:K-Means算法是最为经典的基于划分的聚簇方法,是十大经典数据挖掘算法之一。简单...

2018-04-20 16:52:51 2895

原创 scrapy的xpath无法匹配tbody标签

刚才在使用scrapy的xpath时遇到了一点问题,个人觉得很有意思,也是在无意中发现的,认为是个坑,也是个很有意思的问题,所以这里做个介绍和笔记。问题:使用scapy的xpath在匹配<tbody>位置时无法获取。(使用浏览器自带copy的xpach)我使用的charm浏览器,在检查元素时,直接copy了它的xpath表达式。但是当运行时,却始终没有获取到目的信息。使用它的表达式,你...

2018-04-18 16:24:16 5103 6

原创 pycharm运行和调试不显示结果

刚在虚拟机里面安装了pycharm,配置(setting)完后,新建一个py文件,键入"hello world",竟然没有结果,虽然运行成功。pycharm太不友好了吧!然后开始找问题:1:有人说是文件名的问题,这个可能有,但是我没有改,我觉得我的这个很规范。2:pyqt的auto选项,试了一下没反应。3:还有人说版本问题,我check了最新版应该没问题,再装一次太麻烦了,也没有改。4:还有禁掉p...

2018-04-15 13:06:03 66961 11

原创 python的format函数

还在用%吗?快学会使用format吧!!!好处大大的有:1.不需要理会数据类型的问题,在%方法中%s只能替代字符串类型2.单个参数可以多次输出,参数顺序可以不相同3.填充方式十分灵活,对齐方式十分强大4.官方推荐用的方式,%方式将会在后面的版本被淘汰所以看完这篇文章后你又进击了一步:再说一句,我以前也一直使用%,这是在学习C语言的时候留下的“坏习惯”,当时就觉的很不方便。当然知识是需要活学活用的,...

2018-04-11 08:39:04 1182 1

原创 绘制地图:图形化显示海地地震危机数据

再修改部分代码后,可执行代码如下:from mpl_toolkits.basemap import Basemapfrom pandas import DataFrame,Seriesimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltdef to_cat_list(catstr): str...

2018-04-04 16:10:49 1081

转载 python中*的作用

传递实参和定义形参(所谓实参就是调用函数时传入的参数,形参则是定义函数是定义的参数)的时候,你还可以使用两个特殊的语法:``*`` ** 。调用函数时使用* **test(*args)* 的作用其实就是把序列 args 中的每个元素,当作位置参数传进去。比如上面这个代码,如果 args 等于 (1,2,3) ,那么这个代码就等价于 test(1, 2, 3) 。test(**kwargs)** 的...

2018-04-03 19:40:02 3346

转载 Python列表推导式和生成器表达式的异同

和列表一样,列表推导式也采用方括号[]表示,并且用到了一个简写版的for循环,第一部分是一个生成结果列表元素的表达式,第二部分是一个输入表达式上的循环。阅读理解列表表达式的推荐做法是先从里面的for循环开始,向右查看是否有if条件,然后将推导式开始的那个表达式映射到每一个匹配的元素上去。[python] view plain copy>>> even_numbers = [x f...

2018-04-03 19:17:00 3556

原创 错误、不一致数据处理(fuzzywuzzy函数的使用)

继前面几天的比赛后的又一场比赛(简单的数据处理)其一:做个学习的资料记录。其二:分享出来,供大家参考。这是关于 当数据中存在差异数据或者输入错误的不一致数据的处理 的问题。简单说一部分:有时候当我们在处理数据时,其中包含有一些大小写不一致,或者字母拼写有问题的错误,为了得到更为精确的数据集,我们需要对这部分的异常数据进行处理。import pandas as pd        #导入相关的模块...

2018-04-02 19:55:25 7586

原创 python文件的编码和解码以及chardet模块使用

继上一篇文章后的一次比赛心得。其一:做个学习的资料记录。其二:分享出来,供大家参考。这是关于 文件进行编码处理后同过python解码认知的问题。首先我们应该知道æ–‡å—化ã??、����������等都是需要使用编码才能解读的字符,如果不使用正确的编码格式,那么始终无法进行字符的解读。我们看一个例子:before = "I'd recommend $, #, 你好 and नमस्ते"  ...

2018-04-01 20:38:44 3255

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除