Java&&大数据专栏

与其临渊羡鱼,不如退而结网! 关注大数据及机器学习

matplotlib手册之图装饰

标记和线样式 设置颜色 plt.plot(x, color='y'); plt.plot(x+1, color='m'); plt.plot(x+2, color='c');plt.plot(y, 'y', y+1, 'm', y+2, 'c');#与上等价 设置线格式 plt.plot(x...

2013-08-28 15:22:25

阅读数 2040

评论数 0

回归(regression)、梯度下降(gradient descent)

这两天在看机器学习实战这本书时,关于Logistic回归章节中的梯度上升法,有点云里雾里的感觉,特别是那个python代码,不知道怎么来的。直到看了下面这篇文章,才有点感觉。 http://www.cnblogs.com/LeftNotEasy/archive/2010/12/05/mathma...

2013-08-28 09:40:51

阅读数 1757

评论数 0

Python装饰器与面向切面编程

http://www.cnblogs.com/huxi/archive/2011/03/01/1967600.html 今天来讨论一下装饰器。装饰器是一个很著名的设计模式,经常被用于有切面需求的场景,较为经典的有插入日志、性能测试、事务处理等。装饰器是解决这类问题的绝佳设计,有了装饰器,...

2013-08-27 09:55:17

阅读数 978

评论数 0

Logistic回归分类

利用Logistic回归进行分类的核心思想:根据现有数据堆分类边界线简历回归公司,以此进行分类。     基于sigmoid函数的Logistic回归分类器实现:在每个特征上都乘以一个回归系数,然后把所有的结果相加,将总和带入sigmoid函数,得到一个范围在0~1之间的数值。任何大于0.5的...

2013-08-26 17:24:04

阅读数 1547

评论数 0

【数据挖掘】决策树之ID3算法

在决策书中,如何衡量数据集的有序度至关重要。划分数据集的最大规则:将无序的数据变得更加有序,划分数据集前后信息发生的变化称为信息增益。香农熵表现为信息的期望值,熵越大,数据越混乱。另外一种度量集合是否无序的方法时基尼不纯度。 def calc_entropy(dataset):#香农熵的计算 ...

2013-08-25 09:19:38

阅读数 1463

评论数 0

Linux cut用法

cut是一个选取命令,就是将一段数据经过分析,取出我们想要的。一般来说,选取信息通常是针对“行”来进行分析的,并不是整篇信息分析的。 (1)其语法格式为: cut  [-bn] [file] 或 cut [-c] [file]  或  cut [-df] [file] 使用说明 c...

2013-08-23 18:09:31

阅读数 708

评论数 0

hive create extenal table

create external table IF NOT EXISTS adv_struct_stock_week( uv string, freqflag int, sectionid int, areaid int, province string, ...

2013-08-19 14:25:36

阅读数 1027

评论数 0

【数据挖掘】k-邻近算法

#!/usr/bin/python #-*-encoding:utf-8-*- import numpy as np import operator def classify(vect,dataset,lables,k=5): rows = dataset.shape[0] di...

2013-08-18 20:50:10

阅读数 1359

评论数 0

NumPy使用手记

前面一个NumPy系列基本上是抄书,没有多少具体的内容。最近做实验经常使用NumPy,确实感觉到向量计算的强大。这个系列开始,我记录在使用NumPy使用中的一些具体的技巧和注意事项。 1) 巧用 where函数   where函数是numpy的内置,也是一个非常有用的函数,提供了快速并...

2013-08-15 17:48:16

阅读数 1947

评论数 0

matplotlib绘图手册入门

散点图 #!/usr/bin/python import matplotlib.pyplot as plt import numpy as np #2维散点图 def scatter(mat,col1,col2,lables):     fig = plt.figure()     ax = f...

2013-08-14 21:09:25

阅读数 4898

评论数 0

非负矩阵分解 NMF(Non-negative Matrix Factorization )

著名的科学杂志《Nature》于1999年刊登了两位科学家D.D.Lee和H.S.Seung对数学中非负矩阵研究的突出成果。该文提出了一种新的矩阵分解思想――非负矩阵分解(Non-negative Matrix Factorization,NMF)算法,即NMF是在矩阵中所有元素均为非负数约束条件...

2013-08-12 13:47:11

阅读数 1925

评论数 0

pip:强大的Python包管理工具

转载;http://blog.csdn.net/rumswell/article/details/8838356 pip:强大的Python包管理工具(A tool for installing and managing Python packages.) Project Page: ...

2013-08-12 11:42:47

阅读数 1283

评论数 0

【数据挖掘】特征抽取之NMF

矩阵分解:找到两个更小的矩阵,两者相乘可以重新构造这个矩阵。 特征矩阵:每一行一个特征,每一列一个item,这些值代表了item对此特征的重要性。 权重矩阵:此矩阵映射特征到aricle矩阵。每行是一个aritcle,每一列是一个特诊,此矩阵反映了多少个特征应用到aritcle上。 矩阵重...

2013-08-12 10:43:54

阅读数 2781

评论数 0

Fiddler 教程

Fiddler 教程 转载:http://www.cnblogs.com/TankXiao/archive/2012/02/06/2337728.html Fiddler是最强大最好用的Web调试工具之一,它能记录所有客户端和服务器的http和https请求,允许你监视,设置断点,甚至...

2013-08-05 14:16:48

阅读数 891

评论数 0

numpy手册

在看机器学习实战这本书时,遇到numpy.tile(A,B)函数,愣是没看懂怎么回事,装了numpy模块后,实验了几把,原来是这样子: 重复A,B次,这里的B可以时int类型也可以是远组类型。 >>> import numpy >>> numpy.tile([0...

2013-08-01 22:59:28

阅读数 6223

评论数 2

提示
确定要删除当前文章?
取消 删除
关闭
关闭