花雪随风-CSDN博客

转载分享paperpass

推荐大家一个靠谱的论文检测平台。重复的部分有详细出处以及具体修改意见，能直接在文章上做修改，全部改完一键下载就搞定了。怕麻烦的话，还能用它自带的降重功能。哦对了，他们现在正在做毕业季活动，赠送很多免费字数，可以说是十分划算了！地址是：http://www.paperpass.com/...

2019-03-13 21:42:38 685

原创 pandas学习笔记-算术运算和数据对齐

pandas最重要的一个功能是，它可以对不同索引的对象进行算数运算。在将对象相加时，如果存在不同的索引对，则结果的索引就是该索引对的并集。s1 = pd.Series([7.3,-2.5,3.4,1.5],index=['a','c','d','e'])# a 7.3# c -2.5# d 3.4# e 1.5s2 = pd.Series([-2.1,3.6,-1.5

2017-05-11 20:38:11 902

原创 pandas学习笔记-索引、选取和过滤

Series索引（obj[…]）的工作方式类似于NumPy数组的索引，只不过Series的索引值不只是整数。下面是几个例子：# -- coding: utf-8 --import pandas as pdimport numpy as npobj = pd.Series(np.arange(4.0),index=['a','b','c','d'])print obj结果a 0.0b

2017-05-09 22:06:32 530

原创 pandas学习笔记-丢弃指定轴上的项

丢弃某条轴上的一个或多个项很简单，只要有一个索引数组或列表即可。由于需要执行一些数据整理和集合逻辑，所以drop方法返回的是一个在指定轴上删除了指定值的新对象：obj = pd.Series(np.arange(5.),index=['a','b','c','d','e'])new_obj = obj.drop('c')print new_obj结果a 0.0b 1.0d

2017-05-08 20:48:48 693

引言Pandas 是 python 中常用的数据分析软件库，它提供了 DataFrames 和 Series 的工具，这使得 numpy 和 matplotlib 可以更加便捷地读取转换数据。数据重塑表示转换一个表格或者向量的结构，使其适合于进一步的分析。 Pandas 拥有一些其他软件不具备的重塑功能，这对初学者来说可能会比较棘手。本文中我将举例说明 Pandas 中一些常用的重塑函数，并结合图表

2017-05-08 19:49:50 28398

原创 pandas学习笔记-重新索引

pandas学习笔记-重新索引pandas对象的一个重要方法是reindex,其作用是创建一个适应新索引的新对象。以一个简单示例来说：import pandas as pdobj = pd.Series([4.5,7.2,-5.3,3.6],index=['d','b','a','c'])print obj结果d 4.5b 7.2a -5.3c 3.6dtype:

2017-05-07 21:29:54 8465

原创 pandas学习笔记-索引对象

pandas的索引对象负责管理轴标签和其他元数据（比如轴名称等）。构建Series或DataFrame时，所用到的任何数组或其他序列标签都会被转换成一个Index：obj = pd.Series(range(3),index=['a','b','c'])index = obj.indexprint index结果Index([u'a', u'b', u'c'], dtype='object')I

2017-05-03 16:31:49 472

原创临近性度量方法选取总结

总结数据挖掘导论第二章。邻近性度量的类型应当与数据类型相适应。1.对于许多稠密的、连续的数据，通常使用距离度量，如欧几里得距离等。连续属性之间的邻近度通常用属性值的差来表示，并且距离度量提供了一种将这些差组合到总邻近性度量的良好方法。2.对于稀疏数据，常常包含非对称的属性，通常使用忽略0-0匹配的相似性度量。从概念上讲，这反映了如下事实：对于一对复杂对象，相似度依赖于它们共同具有的性质数目，而不

2017-05-02 22:03:38 1237

原创 pandas学习笔记-DataFrame（2）

另一种常见的数据形式是嵌套字典（也就是字典的字典）：pop = {'Nevada':{2001:2.4,2002:2.9}, 'Ohio' :{2000:1.5,2001:1.7,2002:3.6}}如果将它传给DataFrame，它就会被解释为：外层字典的键作为列，内层键则作为行索引：frame3 = pd.DataFrame(pop)print frame3输出结果

2017-05-02 21:24:13 555

原创 pandas学习笔记-DataFrame（1）

DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔值等）。DataFrame既有行索引也有列索引，它可以被看做由Series组成的字典（公用同一个索引）。跟其他类型的数据结构相比，DataFrame中面向行和面向列的操作基本上是平衡的。其实，DataFrame中的数据是以一个或多个二维块存放的（而不是列表、字典或别的一维数据结构）。构建DataF

2017-05-02 20:38:58 656

原创 pandas学习笔记-Series

Series是一种类似于一维数组的对象，它由一组数据（各种numpy数据类型）以及一组与之相关的数据标签（即索引）组成，仅由一组数据即可产生最简单的Series：import pandas as pdimport numpy as nps= pd.Series([1,2,3,4,5])print s结果：0 11 22 33 44 5Series的字符串

2017-05-02 19:35:56 411

原创 numpy学习笔记-存取文本文件

一个array.txt文件0.58,0.186,1.040,1.1340.194,-0.63,-0.93,0.124-0.126,0.268,0.695,0.047该文件可以被加载到一个二维数组中，如下所示：arr = np.loadtxt('array.txt',delimiter=',')print arr输出结果[[ 0.58 0.186 1.04 1.134] [ 0.1

2017-04-28 19:59:40 303

原创 numpy学习笔记-唯一化

numpy提供了一些针对一维ndarray的基本集合运算。最常用的可能要数np.unique了，他用于找出数组中唯一值并返回已排序的结果。names = np.array(['Bob','Joe','Will','Bob','Will','Joe','Joe'])print np.unique(names)输出的结果['Bob' 'Joe' 'Will']ints = np.array([3,3

2017-04-28 17:00:17 1393

原创 numpy学习笔记-用于布尔型数组的方法

sum经常被用来对布尔型数组中的True值计数：arr = np.random.randn(100)print (arr>0).sum()输出结果47另外还有两个方法any和all，它们对布尔型数组非常有用。any用于测试数组中是否存在一个或多个True，而all则检查数组中所有值是否都是True：bools = np.array([False,False,True,False])print

2017-04-27 21:25:41 3315

原创 numpy学习笔记-将条件逻辑表述为数组运算

numpy.where函数是三元表达式x if condition else y的矢量化版本。假设我们有一个布尔数组和两个值数组。xarr = np.array([1.1,1.2,1.3,1.4,1.5])yarr = np.array([2.1,2.2,2.3,2.4,2.5])cond = np.array([True,False,True,True,False])假设我们想要根据cond中

2017-04-27 20:32:01 3229

原创 numpy通用函数：快速的元素级数组函数

通用函数（即ufunc）是一种对ndarray中的数据执行元素级运算的函数。你可以将其看做简单函数（接受一个或多个变量值，并产生一个或多个标量值）的矢量化包装器。许多ufunc都是简单的元素级变体，如sqrt和exparr = np.arange(10)print arrprint np.sqrt(arr)print np.exp(arr)输出结果[0 1 2 3 4 5 6 7 8 9

2017-04-26 20:27:26 567

原创 numpy的ndarray学习笔记

numpy的ndarray学习笔记

2017-04-26 17:22:24 367

原创 python不足之处总结

1.python是一种解释型编程语言，因此大部分的py代码执行速度要比编译型语言（比如C++和java）慢的多。2.python存在全局解释锁（Global Interpreter Lock，GIL），这个东西可以防止解释器同时执行多条python字节码指令。所以对于高并发、多线程的应用程序而言，python并不是一种理想的编程语言

2017-04-24 20:10:01 1614

原创 python学习笔记-eval

矩阵乘法np.dot([1,2,3],[4,5,6]) = 1*4 + 2*5 + 3*6 = 32

2017-04-22 17:08:15 327

原创 python学习笔记-CSV文件读

将数组或者矩阵存储为csv文件可以使用如下代码实现：numpy.savetxt('new.csv', my_matrix, delimiter = ',')

2017-04-21 20:10:26 556

转载 Item CF 和 User CF的适用场景和区别

Item CF 和 User CF两个方法都能很好的给出推荐，并可以达到不错的效果。但是他们之间还是有不同之处的，而且适用性也有区别。下面进行一下对比　　计算复杂度　　Item CF 和 User CF 是基于协同过滤推荐的两个最基本的算法，User CF 是很早以前就提出来了，Item CF 是从 Amazon 的论文和专利发表之后（2001 年左右）开始流行，大家都觉得 Ite

2017-04-21 14:39:24 1773

转载找一篇论文的源代码的方法总结

作者：Jason Gu链接：https://www.zhihu.com/question/21980275/answer/19929480来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。1. 如果这论文很老，论文里的算法在该领域有举足轻重的地位。那么网上很可能有工具包。例如我做的机器学习方向，经典的聚类、分类算法，MATLAB, python等常用

2017-04-21 14:20:23 50456

jiahaohappy的博客