2016年03月_wtq1993

原创特征工程 for machine learning

（I）特征工程可以解决什么样的问题？特征工程是一个非常重要的课题，是机器学习中不可缺少的一部分，但是它几乎很少出现于机器学习书本里面的某一章。在机器学习方面的成功很大程度上在于如果使用特征工程。在机器学习中，经常是用一个预测模型（线性回归，逻辑回归，SVD等）和一堆原始数据来得到一些预测的结果，人们需要做的是从这堆原始数据中去提炼较优的结果，然后做到最优的预测。这个就包括两个方面，

2016-03-31 20:44:38 2072 2

原创核方法与核技巧

本文对核方法（kernel method）进行简要的介绍。核方法的主要思想是基于这样一个假设：“在低维空间中不能线性分割的点集，通过转化为高维空间中的点集时，很有可能变为线性可分的” ，例如下图左图的两类数据要想在一维空间上线性分开是不可能的，然而通过F(x)=(x-a)(x-b)把一维空间上的点转化为右图上的二维空间上，就是可以线性分割的了。然而，如果直接把低维度的数据转

2016-03-31 15:56:59 4437

原创静态链接库与动态链接库的区别

静态连接库就是把(lib)文件中用到的函数代码直接链接进目标程序，程序运行的时候不再需要其它的库文件；动态链接就是把调用的函数所在文件模块（DLL）和调用函数在文件中的位置等信息链接进目标程序，程序运行的时候再从DLL中寻找相应函数代码，因此需要相应DLL文件的支持。静态链接库与动态链接库都是共享代码的方式，如果采用静态链接库，则无论你愿不愿意，lib 中的指令都全部被直接包含在最终生成的

2016-03-30 17:08:47 412

原创深度信念网络与受限玻尔兹曼机

本篇非常简要地介绍了深度信念网络的基本概念。文章先简要介绍了深度信念网络（包括其应用实例）。接着分别讲述了：(1) 其基本组成结构——受限玻尔兹曼机的的基本情况，以及，(2) 这个基本结构如何组成深度信念网络。本文仅仅能使读者了解深度信念网络这一概念，内容非常浅显，甚至有许多不严密的地方。如果有愿意深入了解受限玻尔兹曼机、深度信念网络的，想对深度学习有更多了解的，请访问深度学习官方网站。或者读者

2016-03-30 15:30:14 4990

原创 Mapreduce中Combiner的使用以及注意点

问题提出：众所周知，Hadoop框架使用Mapper将数据处理成一个键值对，再网络节点间对其进行整理(shuffle)，然后使用Reducer处理数据并进行最终输出。在上述过程中，我们看到至少两个性能瓶颈：（引用）如果我们有10亿个数据，Mapper会生成10亿个键值对在网络间进行传输，但如果我们只是对数据求最大值，那么很明显的Mapper只需要输出它所知道的最大值即可。这样做

2016-03-30 09:43:34 1301

原创写mapreduce时的注意点

reduce的输出为《LongWriteble，FloatWritable》时会使其得不到执行，可以通过设置job.setCombinerClass(ClassPriorReducer.class);来使其得以执行。Hadoop中的数据类型转化为java类型时对于Text调用toString()方法，对于其他类型则调用get（）方法，java类型转化为Hadoop类型调用had

2016-03-28 21:09:29 793

原创 mapreduce中的setup（）与cleanup（）的使用

hadoop中的MapReduce框架里已经预定义了相关的接口，其中如Mapper类下的方法setup()和cleanup()。setup()，此方法被MapReduce框架仅且执行一次，在执行Map任务前，进行相关变量或者资源的集中初始化工作。若是将资源初始化工作放在方法map()中，导致Mapper任务在解析每一行输入时都会进行资源初始化工作，导致重复，程序运行效率不高！cleanup

2016-03-27 11:24:43 7660 1

原创 MapReduce处理多个不同的出入文件

MultipleInputs类指定不同的输入文件路径以及输入文化格式现有两份数据phone123,good number124,common number125,bad numberuserzhangsan,123lisi,124wangwu,125现在需要把user和phone按照phone number连接起来。得到下面的结果zhangsan,123

2016-03-25 21:45:06 3307

受限玻尔兹曼机(Restricted Boltzmann Machine,简称RBM)是由Hinton和Sejnowski于1986年提出的一种生成式随机神经网络(generative stochastic neural network)，该网络由一些可见单元(visible unit，对应可见变量，亦即数据样本)和一些隐藏单元(hidden unit，对应隐藏变量)构成，可见变量和隐藏变量都是二

2016-03-21 21:01:45 3067

原创循环神经网络(RNN, Recurrent Neural Networks)介绍

[+]循环神经网络(RNN, Recurrent Neural Networks)介绍循环神经网络(Recurrent Neural Networks，RNNs)已经在众多自然语言处理(Natural Language Processing, NLP)中取得了巨大成功以及广泛应用。但是，目前网上与RNNs有关的学习资料很少，因此该系列便是介绍RNNs的原理以及如何实现。主要分成以下几个

2016-03-21 20:46:29 1058

原创图解堆算法、链表、栈与队列

什么是堆堆（heap），是一类特殊的数据结构的统称。它通常被看作一棵树的数组对象。在队列中，调度程序反复提取队列中的第一个作业并运行，因为实际情况中某些时间较短的任务却可能需要等待很长时间才能开始执行，或者某些不短小、但很重要的作业，同样应当拥有优先权。而堆就是为了解决此类问题而设计的数据结构。二叉堆是一种特殊的堆，二叉堆是完全二叉树或者近似完全二叉树，二叉

2016-03-19 22:24:27 683

原创海量数据处理面试题

作者：July出处：结构之法算法之道blog前言一般而言，标题含有“秒杀”，“99%”，“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌，但进一步来讲，如果读者读罢此文，却无任何收获，那么，我也甘愿背负这样的罪名，:-)，同时，此文可以看做是对这篇文章：十道海量数据处理面试题与十个方法大总结的一般抽象性总结。毕竟受文章和理论之限，本文将摒弃绝大部分的细节，只

2016-03-16 20:42:01 616

原创数据科学家经典20道面试题

Q1.解释什么是正则化，以及它为什么有用。回答者：Matthew Mayo 正则化是添加一个调优参数的过程模型来引导平滑以防止过拟合。(参加KDnuggets文章《过拟合》)这通常是通过添加一个常数到现有的权向量。这个常数通常要么是L1(Lasso)要么是L2(ridge)，但实际上可以是任何标准。该模型的测算结果的下一步应该是将正则化训练集计算的损失函

2016-03-15 22:20:07 4096

原创干货：结合Scikit-learn介绍几种常用的特征选择方法

特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能，更能帮助我们理解数据的特点、底层结构，这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能：减少特征数量、降维，使模型泛化能力更强，减少过拟合增强对特征和特征值之间的理解拿到数据集，一个特征选择方法，往往很难同时完成这两个目的。通常情况下，我们经常不管三七二十一，选择一种自己最熟悉

2016-03-09 10:16:08 1779

原创如何在github上fork一个项目来贡献代码以及同步原作者的修改

作为一个IT人，通过github进行学习是最快的成长手段。我们可以浏览别人的优秀代码。但只看不动手还是成长得很慢，因此为别人贡献代码才是明智之举。比如我们看下片看，许多大片都是由字幕组免费翻译压制的。为什么他们要这样做呢？因为他们都是聪明的大学生，为了提高听力水平，提高笔译水平才这样干的！中国人都是非常实务的！因此贡献代码，参与开源项目都是有益无害的！好了，让我们开始吧！如何贡献自己的力量

2016-03-06 12:25:52 447

原创主成分分析法以及python实现

本文主要介绍一种降维算法，主成分分析法，Principal Components Analysis,简称PCA,这种方法的目标是找到一个数据近似集中的子空间，至于如何找到这个子空间，下文会给出详细的介绍，PCA比其他降维算法更加直接，只需要进行一次特征向量的计算即可。（在Matlab,python,R中这个可以轻易的用eig()函数来实现）。假设我们给出这样一个数据集代表m辆不同种类的汽车

2016-03-05 20:29:26 13569 8

原创面试之机器学习算法梳理

找工作时（IT行业），除了常见的软件开发以外，机器学习岗位也可以当作是一个选择，不少计算机方向的研究生都会接触这个，如果你的研究方向是机器学习/数据挖掘之类，且又对其非常感兴趣的话，可以考虑考虑该岗位，毕竟在机器智能没达到人类水平之前，机器学习可以作为一种重要手段，而随着科技的不断发展，相信这方面的人才需求也会越来越大。　　纵观IT行业的招聘岗位，机器学习之类的岗位还是挺少的，国内大点的公司里

2016-03-03 21:22:05 821

原创 machine-learning学习资料汇总

Brief History of Machine Learning》http://www.erogol.com/brief-history-machine-learning/介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Adaboost到随机森林、Deep Learning.译文http://www.almosthuman.cn/2016/0

2016-03-03 11:57:10 1717

原创几种等等概率抽样方法

在统计建模过程中往往会使用到采样技术，通过样本来反映总体特征。关于采样，目前主要有两大类抽样技术，即等概率抽样和非等概率抽样，而在实际应用中，等概率抽样是最常见的，下面就讲讲等概率抽样中的几种抽样技术。一、简单随机抽样简单随机抽样(SRS)是我们经常接触到的抽样方法，比如摸彩或抽奖，或办公室需要有人出公差去送数据时用抽签决定人选。SRS的特色是母群体中的每一个体都有相同的机会被选中

2016-03-03 11:47:19 13324

wtq1993的博客