2016年05月_行路南

11月 08月 05月 04月 03月 02月

转载机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 1)

原文地址：https://github.com/ty4z2008/Qix/edit/master/dl.md《Brief History of Machine Learning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Adaboost到随机森林、Deep Learning.《Deep Learning in Neural Networks: An

2016-05-17 20:30:02 2815

原创 MapReduce 之倒排索引基本概念、设计思路和源码分析

每天我们都在使用搜索引擎，比如Google,百度，Bing，通常我们搜索一个关键词，搜索引擎瞬间就能给出我们想要的页面。这实际上是一种非常令人棒的体验。可我们有没有想过为什么搜索引擎能够在数十亿的网页中瞬间找到我们理想的结果呢？一个很重要的原因就是：这些搜索引擎都使用了倒排索引技术(Inverted Index)。如果没有倒排索引，搜索引擎在每次检索时，必须遍历所有的页面，然后在每个页面中查找是否包

2016-05-15 21:59:24 1962

原创 MapReduce 之PageRank 算法概述、设计思路和源码分析

早就对PageRank 算法感兴趣，但一直都是轮廓性的概念，没有具体深入学习。最近要学习和总结MapReduce 的实例，就又把PageRank 算法重新学习了一遍，并基于MapReduce 进行了实现。1. PageRank是什么PageRank，网页排名，右脚网页级别。是以Google 公司创始人Larry Page 之姓来命名。PageRank 计算每一个网页的PageRank值，并根据Pag

2016-05-14 13:42:08 11640 4

原创 MapReduce 之单表关联设计思路与源码分析

本文通过一个简单的样例child-parent 表来介绍单表关联，在介绍这部分内容的时候主要包括两部分：1、描述清楚每一部分设计的思路；2、基于Mapreduce 进行了实现。1. 样例child-parent表的内容和期望的输出我们得到一个child-parent 表，然后希望能够通过挖掘到两列之间的关系，得到一个新的表 grandchild-grandparent 。为了方便说明问题，首先给出一

2016-05-13 20:08:36 1093

原创 MapReduce 之数据去重

最近要更新一些MapReduce实例应用的系列文章。文章结构上包括以下几个部分：1.、问题背景；2、基于MapReduce的解决思路；3、代码实现；4、运行结果。1. 问题背景随着数据信息量的急速增长，越来越多的人开始关注存储数据的数据去重技术。数据去重是指对所有的数据进行一个有意义的筛选，去除掉冗余的数据。例如统计大数据集上的数据种类个数、从网站日志中计算访问地等都会涉及到数据去重。下面通过一个例

2016-05-11 16:05:35 7252 2

原创 MapReduce之 WordCount 源码分析和操作流程

在之前的工作中，主要做了三件事情：1 如何完成Hadoop的完全分布式集群搭建 2 如何运行Hadoop自带示例WordCount，验证集群的运行 3 如何基于eclipse插件实现Hadoop编程完成每一件事都需要经过谨慎的操作、反复的验证，还有耐心。安装完之后一下成功是很难的，仍需要检验每一步的操作、查看错误问题的日志、分析网上类似问题的各类解决方法，于是在千转百回之下，柳暗花明。我分享了以

2016-05-06 21:44:56 6121

原创 HDFS 读写数据详细步骤

读取数据: 如图所示： client 要从datanode 上读取file ，而file是由block1 和block2 组成的。其中block1 在datanode 的存储位置是 host2,host1,host3; block2 在datanode 的存储位置是 host7,host8,host4; 它的读取流程如下：client 向namenode 发送读取请求，并告诉它要读取的文

2016-05-04 19:53:30 3402

原创 linux 下安装xgboost

第一步：安装anaconda安装xgboost 有一些依赖包，所以在安装xgboost之前需要安装这些依赖包。为了方便安装，这里推荐直接安装anaconda，这里集成了绝大多数第三方库，安装步骤很方便，这里是具体方法第二步：下载xgboost官网的最新版xgboost 在编译时候总有问题，可能是版本过新的缘故。这里我使用的是之前xgboost的版本，编译很顺利。下载地址见这里第三步：编译和安装1.检

2016-05-03 13:35:21 23509 1

原创 linux 下安装anaconda

第一步：下载ancaconda for linux 这里是下载地址我这里没有选择最新的版本，选择的是2.1.0,64位，linux 的版本第二步：在下载的anaconda 安装包的目录下进行安装bash Anaconda-2.1.0-Linux-x86_64.sh安装完成之后要重启终端，anaconda才能生效第三步：验证输入python 进行python环境输入import scipy ,

2016-05-03 12:45:04 87589 3

人脸识别技术综述

　首先对计算机人脸自动识别技术的研究背景及发展历程做了简单回顾 ,然后对人脸正面像的识别方法 ,按照识别特征的不同进行了分类综述 ,主要介绍了特征脸 ( Eigenface)方法、基于小波特征的弹性匹配 ( ElasticM atching)的方法、形状和灰度模型分离的可变形模型 (Flexible M odel)以及传统的部件建模等分析方法 .通过对各种识别方法的分析与比较 ,总结了影响人脸识别技术实用化的几个因素 ,并提出了研究和开发成功的人脸识别技术所需要考虑的几个重要方面 ,进而展望了人脸识别技术今后的发展方向 .

2014-08-20

数据挖掘导论（完整版）

数据挖掘导论，经典书籍。包含分类、关联分析、聚类分析、异常检测等核心技术

2014-08-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人