自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

转载 分享paperpass

推荐大家一个靠谱的论文检测平台。重复的部分有详细出处以及具体修改意见,能直接在文章上做修改,全部改完一键下载就搞定了。怕麻烦的话,还能用它自带的降重功能。哦对了,他们现在正在做毕业季活动, 赠送很多免费字数,可以说是十分划算了!地址是:http://www.paperpass.com/...

2019-03-13 21:42:38 685

原创 pandas学习笔记-算术运算和数据对齐

pandas最重要的一个功能是,它可以对不同索引的对象进行算数运算。在将对象相加时,如果存在不同的索引对,则结果的索引就是该索引对的并集。s1 = pd.Series([7.3,-2.5,3.4,1.5],index=['a','c','d','e'])# a 7.3# c -2.5# d 3.4# e 1.5s2 = pd.Series([-2.1,3.6,-1.5

2017-05-11 20:38:11 902

原创 pandas学习笔记-索引、选取和过滤

Series索引(obj[…])的工作方式类似于NumPy数组的索引,只不过Series的索引值不只是整数。下面是几个例子:# -- coding: utf-8 --import pandas as pdimport numpy as npobj = pd.Series(np.arange(4.0),index=['a','b','c','d'])print obj结果a 0.0b

2017-05-09 22:06:32 530

原创 pandas学习笔记-丢弃指定轴上的项

丢弃某条轴上的一个或多个项很简单,只要有一个索引数组或列表即可。由于需要执行一些数据整理和集合逻辑,所以drop方法返回的是一个在指定轴上删除了指定值的新对象:obj = pd.Series(np.arange(5.),index=['a','b','c','d','e'])new_obj = obj.drop('c')print new_obj结果a 0.0b 1.0d

2017-05-08 20:48:48 693

转载 Pandas中的数据重塑(reshape)功能

引言Pandas 是 python 中常用的数据分析软件库,它提供了 DataFrames 和 Series 的工具,这使得 numpy 和 matplotlib 可以更加便捷地读取转换数据。数据重塑表示转换一个表格或者向量的结构,使其适合于进一步的分析。 Pandas 拥有一些其他软件不具备的重塑功能,这对初学者来说可能会比较棘手。本文中我将举例说明 Pandas 中一些常用的重塑函数,并结合图表

2017-05-08 19:49:50 28398

原创 pandas学习笔记-重新索引

pandas学习笔记-重新索引pandas对象的一个重要方法是reindex,其作用是创建一个适应新索引的新对象。以一个简单示例来说:import pandas as pdobj = pd.Series([4.5,7.2,-5.3,3.6],index=['d','b','a','c'])print obj结果d 4.5b 7.2a -5.3c 3.6dtype:

2017-05-07 21:29:54 8465

原创 pandas学习笔记-索引对象

pandas的索引对象负责管理轴标签和其他元数据(比如轴名称等)。构建Series或DataFrame时,所用到的任何数组或其他序列标签都会被转换成一个Index:obj = pd.Series(range(3),index=['a','b','c'])index = obj.indexprint index结果Index([u'a', u'b', u'c'], dtype='object')I

2017-05-03 16:31:49 472

原创 临近性度量方法选取总结

总结数据挖掘导论第二章。 邻近性度量的类型应当与数据类型相适应。1.对于许多稠密的、连续的数据,通常使用距离度量,如欧几里得距离等。连续属性之间的邻近度通常用属性值的差来表示,并且距离度量提供了一种将这些差组合到总邻近性度量的良好方法。2.对于稀疏数据,常常包含非对称的属性,通常使用忽略0-0匹配的相似性度量。从概念上讲,这反映了如下事实:对于一对复杂对象,相似度依赖于它们共同具有的性质数目,而不

2017-05-02 22:03:38 1237

原创 pandas学习笔记-DataFrame(2)

另一种常见的数据形式是嵌套字典(也就是字典的字典):pop = {'Nevada':{2001:2.4,2002:2.9}, 'Ohio' :{2000:1.5,2001:1.7,2002:3.6}}如果将它传给DataFrame,它就会被解释为:外层字典的键作为列,内层键则作为行索引:frame3 = pd.DataFrame(pop)print frame3输出结果

2017-05-02 21:24:13 555

原创 pandas学习笔记-DataFrame(1)

DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(公用同一个索引)。跟其他类型的数据结构相比,DataFrame中面向行和面向列的操作基本上是平衡的。其实,DataFrame中的数据是以一个或多个二维块存放的(而不是列表、字典或别的一维数据结构)。构建DataF

2017-05-02 20:38:58 656

原创 pandas学习笔记-Series

Series是一种类似于一维数组的对象,它由一组数据(各种numpy数据类型)以及一组与之相关的数据标签(即索引)组成,仅由一组数据即可产生最简单的Series:import pandas as pdimport numpy as nps= pd.Series([1,2,3,4,5])print s结果:0 11 22 33 44 5Series的字符串

2017-05-02 19:35:56 411

原创 numpy学习笔记-存取文本文件

一个array.txt文件0.58,0.186,1.040,1.1340.194,-0.63,-0.93,0.124-0.126,0.268,0.695,0.047该文件可以被加载到一个二维数组中,如下所示:arr = np.loadtxt('array.txt',delimiter=',')print arr输出结果[[ 0.58 0.186 1.04 1.134] [ 0.1

2017-04-28 19:59:40 303

原创 numpy学习笔记-唯一化

numpy提供了一些针对一维ndarray的基本集合运算。最常用的可能要数np.unique了,他用于找出数组中唯一值并返回已排序的结果。names = np.array(['Bob','Joe','Will','Bob','Will','Joe','Joe'])print np.unique(names)输出的结果['Bob' 'Joe' 'Will']ints = np.array([3,3

2017-04-28 17:00:17 1393

原创 numpy学习笔记-用于布尔型数组的方法

sum经常被用来对布尔型数组中的True值计数:arr = np.random.randn(100)print (arr>0).sum()输出结果47另外还有两个方法any和all,它们对布尔型数组非常有用。any用于测试数组中是否存在一个或多个True,而all则检查数组中所有值是否都是True:bools = np.array([False,False,True,False])print

2017-04-27 21:25:41 3315

原创 numpy学习笔记-将条件逻辑表述为数组运算

numpy.where函数是三元表达式x if condition else y的矢量化版本。假设我们有一个布尔数组和两个值数组。xarr = np.array([1.1,1.2,1.3,1.4,1.5])yarr = np.array([2.1,2.2,2.3,2.4,2.5])cond = np.array([True,False,True,True,False])假设我们想要根据cond中

2017-04-27 20:32:01 3229

原创 numpy通用函数:快速的元素级数组函数

通用函数(即ufunc)是一种对ndarray中的数据执行元素级运算的函数。你可以将其看做简单函数(接受一个或多个变量值,并产生一个或多个标量值)的矢量化包装器。 许多ufunc都是简单的元素级变体,如sqrt和exparr = np.arange(10)print arrprint np.sqrt(arr)print np.exp(arr)输出结果[0 1 2 3 4 5 6 7 8 9

2017-04-26 20:27:26 567

原创 numpy的ndarray学习笔记

numpy的ndarray学习笔记

2017-04-26 17:22:24 367

原创 python不足之处总结

1.python是一种解释型编程语言,因此大部分的py代码执行速度要比编译型语言(比如C++和java)慢的多。2.python存在全局解释锁(Global Interpreter Lock,GIL),这个东西可以防止解释器同时执行多条python字节码指令。所以对于高并发、多线程的应用程序而言,python并不是一种理想的编程语言

2017-04-24 20:10:01 1614

原创 python学习笔记-eval

矩阵乘法np.dot([1,2,3],[4,5,6]) = 1*4 + 2*5 + 3*6 = 32

2017-04-22 17:08:15 327

原创 python学习笔记-CSV文件读

将数组或者矩阵存储为csv文件可以使用如下代码实现:numpy.savetxt('new.csv', my_matrix, delimiter = ',')

2017-04-21 20:10:26 556

转载 Item CF 和 User CF的适用场景和区别

Item CF 和 User CF两个方法都能很好的给出推荐,并可以达到不错的效果。但是他们之间还是有不同之处的,而且适用性也有区别。下面进行一下对比  计算复杂度  Item CF 和 User CF 是基于协同过滤推荐的两个最基本的算法,User CF 是很早以前就提出来了,Item CF 是从 Amazon 的论文和专利发表之后(2001 年左右)开始流行,大家都觉得 Ite

2017-04-21 14:39:24 1773

转载 找一篇论文的源代码的方法总结

作者:Jason Gu链接:https://www.zhihu.com/question/21980275/answer/19929480来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。1. 如果这论文很老,论文里的算法在该领域有举足轻重的地位。那么网上很可能有工具包。例如我做的机器学习方向,经典的聚类、分类算法,MATLAB, python等常用

2017-04-21 14:20:23 50456

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除