D.W 的专栏

深度学习、机器学习、网络安全、推荐算法

Adaboost - 新的角度理解权值更新策略

关于Adaboost,在先前的一篇文章里,也介绍过它的步骤与实现,但理论上的推导未曾涉及。虽然Adaboost算法思想通俗易懂,但权值更新公式的由来,想必并非人人皆知。本文着重于从理论层面进一步阐述Adaboost,最终推导出迭代时的样本权值更新公式。

2016-08-28 21:57:49

阅读数 5345

评论数 0

PCA主成分分析Python实现

作者:拾毅者 出处:http://www.csuldw.com/2016/01/22/2016-02-28-pca/PCA(principle component analysis) ,主成分分析,主要是用来降低数据集的维度,然后挑选出主要的特征。原理简单,实现也简单。关于原理公式的推导,本文不...

2016-02-28 15:10:35

阅读数 15580

评论数 2

机器学习之特征工程

本文是一篇关于特征工程的总结类文章,如有不足之处或理解有偏差的地方,还望大家多多指点。首先,给一张特征工程的思维导图: 【如果要浏览图片,建议将其下载到本地,使用图片浏览软件查看】 关于特征工程(Feature Engineering),已经是很古老很常见的话题了,坊间常说:“数据和特征决...

2015-10-25 12:49:28

阅读数 16168

评论数 3

概率分布 Probability Distributions

在机器学习领域,概率分布对于数据的认识有着非常重要的作用。不管是有效数据还是噪声数据,如果知道了数据的分布,那么在数据建模过程中会得到很大的启示。本文总结了几种常见的概率分布,比如离散型随机变量的分布代表伯努利分布以及连续型随机变量的分布代表高斯分布。对于每种分布,不仅给出它的概率密度函数,还会对...

2016-08-20 09:29:39

阅读数 1638

评论数 0

Inverted Index(倒排索引)

传统的正排索引指的是doc->word的映射,然而在实际工作中,仅仅只有正排索引是远远不够的,比如我想知道某个word出现在那些doc当中,就需要遍历所有的doc,这在实时性要求比较严的系统中是不能接受的。因此,就出现了倒排索引(inverted index ),详细内容参见Wikipedi...

2016-07-30 22:03:48

阅读数 2856

评论数 0

SparkSQL之更改表结构

本文篇幅较短,内容源于自己在使用SparkSQL时碰到的一个小问题,因为在之后的数据处理过程中多次使用,所以为了加深印象,在此单独成文,以便回顾。场景在使用SparkSQL进行数据处理时,碰到这样一种情况:需要更改DataFrame当中某个字段的类型。简而言之,就是需要更改SparkSQL的表结构...

2016-07-23 18:04:15

阅读数 3954

评论数 0

Spark批量读取Redis数据-Pipeline(Scala)

最近在处理数据时,需要将原始数据与Redis的数据进行join,在读取Redis的过程中,碰到了一些问题,顺便做个笔记,希望对其他同学也有所帮助。实验过程中,当数据量还是十万级别的时候,逐个读取Redis并无压力;但当数据量达到千万级别时,问题就油然而生了,即使是使用Spark的mapPartit...

2016-06-26 15:55:13

阅读数 11883

评论数 0

Spark算子篇-combineByKey实战

Spark算子combineByKeycombineByKey属于Key-Value型算子,做的是聚集操作,这种变换不会触发作业的提交,主要有三个参数,分别是: combiner function : 组合器函数,用于将RDD[K,V]中的V转换成一个新的值C1; mergeValue funct...

2016-06-09 13:48:32

阅读数 5278

评论数 1

Python参数传递 - 引用传递&值传递

Python值传递和引用传递区别,哪些类型值传递,哪些是引用传递?值传递:方法调用时,实际参数把它的值传递给对应的形式参数,方法执行中形式参数值的改变不影响实际参数的值。>>> a1 = 520 >>> a2 = a1 >>> print a1...

2016-05-25 09:51:42

阅读数 6727

评论数 0

Linux环境下非root用户安装Python及相关库

以前在配置python的时候,都是使用系统安装的全局python,即root用户安装好的python,然而现在因为没有root权限,同时python版本并非自己所需,所以要在非root用户下使用自己指定的python,因此,重新整理了一份如何在Linux环境下使用非root用户安装python及其...

2016-05-07 16:32:44

阅读数 23152

评论数 2

分类之性能评估指标

本文主要介绍几种常用的分类评估指标,同时介绍如何绘制ROC曲线以及AUC值的便捷的计算方法。最后再附上一个绘制ROC曲线和计算AUC的源码实现。Precision和Recall首先我们来看看下面这个混淆矩阵: pred_label/true_label Positive Negativ...

2016-03-12 22:06:10

阅读数 9387

评论数 0

机器学习算法选择

本文主要回顾下几个常用算法的适应场景和优缺点!对于你的分类问题,你知道应该如何选择哪一个机器学习算法么?当然,如果你真的在乎精度(accuracy),最好的方法就是通过交叉验证(cross-validation)对各个算法一个个地进行测试,进行比较,然后调整参数确保每个算法达到最优解,最后选择最好...

2016-02-26 20:40:04

阅读数 2407

评论数 2

机器学习数据集-MNIST

介绍在学习机器学习的时候,首当其冲的就是准备一份通用的数据集,方便与其他的算法进行比较。在这里,我写了一个用于加载MNIST数据集的方法,并将其进行封装,主要用于将MNIST数据集转换成numpy.array()格式的训练数据。直接下面看下面的代码吧(主要还是如何用python去读取binnary...

2016-02-25 18:46:04

阅读数 17782

评论数 5

CentOS下使用pip安装scipy

使用yum也可以安装,参考之前的博文,!Python学习-安装pip和scikit-learn这里使用pip来安装在linux上用pip安装scipy需要blas/lapack的支持。这里下载的是lapack-3.5.0版本。wget http://www.netlib.org/lapack/la...

2016-01-13 18:28:40

阅读数 1748

评论数 0

Python笔记-几种取整方式

背景  在处理数据的时候,碰到了一个问题,就是取整方式!比如给定一个数值型列表,我需要分别获取它位置为长度的0%,25%,50%,75%,100%处的几个数字。但Python自带的int是向下取整,如果数字长度是5,理论上这五个数字分别对应0%,25%,50%,75%,100%的位置,但使用int...

2015-12-28 23:12:16

阅读数 3886

评论数 1

Python笔记-均值列表

一个小小的实例,做个小笔记!比如有三个列表,列表元素均为数值型,三个列表的长度都一样,现在我想要求这三个列表的均值,即求一个均值列表,对应元素为上述三个列表对应元素的均值。代码实现如下:def meanMethod(one,two,three): comb = zip(one,two,th...

2015-12-28 23:09:30

阅读数 3124

评论数 0

Windows下搭建Hexo

此文只作为自己的手稿笔记! 安装Python2.7 安装git 安装nodejs 确保上面三个都安装成功,然后点击右键,进入【Git Bash】,输入【npm install -g hexo】 这样hexo就安装完成了。 如果在Linux系统下,会相对比较复杂点。这里就不介绍了。 接...

2015-12-28 18:55:59

阅读数 1575

评论数 0

Linux笔记-结合nohup执行Python脚本时同步输出结果

在Linux中,可以使用nohup将脚本放置后台运行,如下:nohup python myscript.py params1 > nohup.out 2>&1 & 但直接使用上面代码,无法在程序运行过程中查看Python中的print "computing&q...

2015-12-22 20:55:30

阅读数 6489

评论数 0

协方差&协方差矩阵【matlab实例】

协方差矩阵 协方差也只能处理二维问题,那维数多了自然就需要计算多个协方差,比如n维的数据集就需要计算n!(n−2)!∗2\frac{n!}{(n-2)!*2}个协方差,那自然而然我们会想到使用矩阵来组织这些数据。给出协方差矩阵的定义: Cn∗n=(ci,j,ci,j=cov(Dimi,Dimj...

2015-11-30 16:49:12

阅读数 22844

评论数 3

机器学习算法代码汇总(Python&R)

【机器学习算法代码汇总-Python&R】- PDF文件下载.原文链接:点击这里.

2015-11-21 19:23:59

阅读数 2292

评论数 1

提示
确定要删除当前文章?
取消 删除
关闭
关闭