2013年08月_冰火两重天

原创 matplotlib手册之图装饰

标记和线样式设置颜色 plt.plot(x, color='y'); plt.plot(x+1, color='m'); plt.plot(x+2, color='c');plt.plot(y, 'y', y+1, 'm', y+2, 'c');#与上等价设置线格式 plt.plot(x, color='y',linestyle='--'); plt.plot(x+1,

2013-08-28 15:22:25 2235

转载回归(regression)、梯度下降(gradient descent)

这两天在看机器学习实战这本书时，关于Logistic回归章节中的梯度上升法，有点云里雾里的感觉，特别是那个python代码，不知道怎么来的。直到看了下面这篇文章，才有点感觉。 http://www.cnblogs.com/LeftNotEasy/archive/2010/12/05/mathmatic_in_machine_learning_1_regression_and_gradient_d

2013-08-28 09:40:51 1868

转载 Python装饰器与面向切面编程

http://www.cnblogs.com/huxi/archive/2011/03/01/1967600.html 今天来讨论一下装饰器。装饰器是一个很著名的设计模式，经常被用于有切面需求的场景，较为经典的有插入日志、性能测试、事务处理等。装饰器是解决这类问题的绝佳设计，有了装饰器，我们就可以抽离出大量函数中与函数功能本身无关的雷同代码并继续重用。概括的讲，装饰器的作用就是为已经存在

2013-08-27 09:55:17 1092

原创 Logistic回归分类

利用Logistic回归进行分类的核心思想：根据现有数据堆分类边界线简历回归公司，以此进行分类。基于sigmoid函数的Logistic回归分类器实现：在每个特征上都乘以一个回归系数，然后把所有的结果相加，将总和带入sigmoid函数，得到一个范围在0~1之间的数值。任何大于0.5的数据被分入1类，小于0.5的被归入0类。

2013-08-26 17:24:04 1812

原创【数据挖掘】决策树之ID3算法

在决策书中，如何衡量数据集的有序度至关重要。划分数据集的最大规则：将无序的数据变得更加有序，划分数据集前后信息发生的变化称为信息增益。香农熵表现为信息的期望值，熵越大，数据越混乱。另外一种度量集合是否无序的方法时基尼不纯度。 def calc_entropy(dataset):#香农熵的计算 lines = len(dataset) lables={} for curvect

2013-08-25 09:19:38 1664

转载 Linux cut用法

cut是一个选取命令，就是将一段数据经过分析，取出我们想要的。一般来说，选取信息通常是针对“行”来进行分析的，并不是整篇信息分析的。（1）其语法格式为： cut [-bn] [file] 或 cut [-c] [file] 或 cut [-df] [file] 使用说明 cut 命令从文件的每一行剪切字节、字符和字段并将这些字节、字符和字段写至标准输出。如果不指定 Fi

2013-08-23 18:09:31 790

原创 hive create extenal table

create external table IF NOT EXISTS adv_struct_stock_week( uv string, freqflag int, sectionid int, areaid int, province string, city string, frequence bigint, stock bi

2013-08-19 14:25:36 1235

原创【数据挖掘】k-邻近算法

#!/usr/bin/python #-*-encoding:utf-8-*- import numpy as np import operator def classify(vect,dataset,lables,k=5): rows = dataset.shape[0] diffmat = np.tile(vect,(rows,1)) - dataset diffm

2013-08-18 20:50:10 1544

转载 NumPy使用手记

前面一个NumPy系列基本上是抄书，没有多少具体的内容。最近做实验经常使用NumPy，确实感觉到向量计算的强大。这个系列开始，我记录在使用NumPy使用中的一些具体的技巧和注意事项。 1）巧用 where函数 where函数是numpy的内置，也是一个非常有用的函数，提供了快速并且灵活的计算功能。 def f_norm_1(data, estimate): resi

2013-08-15 17:48:16 2334

原创 matplotlib绘图手册入门

散点图 #!/usr/bin/python import matplotlib.pyplot as plt import numpy as np #2维散点图 def scatter(mat,col1,col2,lables): fig = plt.figure() ax = fig.add_subplot(111) ax.scatter(mat[:,c

2013-08-14 21:09:25 5186

转载非负矩阵分解 NMF（Non-negative Matrix Factorization ）

著名的科学杂志《Nature》于1999年刊登了两位科学家D.D.Lee和H.S.Seung对数学中非负矩阵研究的突出成果。该文提出了一种新的矩阵分解思想――非负矩阵分解(Non-negative Matrix Factorization，NMF)算法，即NMF是在矩阵中所有元素均为非负数约束条件之下的矩阵分解方法。该论文的发表迅速引起了各个领域中的科学研究人员的重视：一方面，科学研究中的很多大规

2013-08-12 13:47:11 2236

转载 pip:强大的Python包管理工具

转载;http://blog.csdn.net/rumswell/article/details/8838356 pip:强大的Python包管理工具(A tool for installing and managing Python packages.) Project Page: https://github.com/pypa/pip 安装包(Install a packag

2013-08-12 11:42:47 1572

原创【数据挖掘】特征抽取之NMF

矩阵分解：找到两个更小的矩阵，两者相乘可以重新构造这个矩阵。特征矩阵：每一行一个特征，每一列一个item，这些值代表了item对此特征的重要性。权重矩阵：此矩阵映射特征到aricle矩阵。每行是一个aritcle，每一列是一个特诊，此矩阵反映了多少个特征应用到aritcle上。矩阵重新构建

2013-08-12 10:43:54 4101

转载 Fiddler 教程

Fiddler 教程转载：http://www.cnblogs.com/TankXiao/archive/2012/02/06/2337728.html Fiddler是最强大最好用的Web调试工具之一，它能记录所有客户端和服务器的http和https请求，允许你监视，设置断点，甚至修改输入输出数据. 使用Fiddler无论对开发还是测试来说，都有很大的帮助。阅读目录 Fi

2013-08-05 14:16:48 984

原创 numpy手册

在看机器学习实战这本书时，遇到numpy.tile(A,B)函数，愣是没看懂怎么回事，装了numpy模块后，实验了几把，原来是这样子：重复A，B次，这里的B可以时int类型也可以是远组类型。 >>> import numpy >>> numpy.tile([0,0],5) array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0]) >>> numpy.tile([0,0],(

2013-08-01 22:59:28 6514 2

Java&&大数据专栏