2014年03月_skyWalker_ONLY

原创机器学习实战之决策树

决策树学习是应用最广泛的归纳推理算法之一，是一种逼近离散值目标函数的方法，在这种方法中学习到的函数被表示为一棵决策树。决策树可以使用不熟悉的数据集合，并从中提取出一系列规则，机器学习算法最终将使用这些从数据集中创造的规则。决策树的优点为：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据。缺点为：可能产生过度匹配的问题。决策树适于处理离散型和连续型的数据。决策树通过

2014-03-31 10:47:46 3928 2

原创 Hadoop学习之MapReduce(六)

在这篇文章中主要关注MapReduce作业的输入和输出，由于Hadoop版本的变化及本人对这些变化了解的还不够深入，难免有描述不清楚的地方，会在进一步学习后更正不准确的地方。作业输入InputFormat描述了MapReduce作业的输入规范。MapReduce框架依靠作业的InputFormat实现：1. 验证作业的输入规范。2. 将输入文件分割为逻辑的InputSpli

2014-03-26 14:28:20 3317 1

原创 Hadoop学习之MapReduce(五)

作业的提交和监控Job为作业提交者提供了作业的视图，允许用户管理作业，提交作业，控制作业的执行和查询作业状态，比如跟踪map和reduce任务的执行进度。该类提供的set方法只有在作业已经被提交后才生效，否则将会抛出IllegalStateException异常。作业的提交过程包括：1. 检查作业的输入输出规范。2. 计算作业InputSplit的值。3.

2014-03-25 17:30:04 4425 1

接下来是跟MapReduce目录结构有关的参数。首先看两个参数，分别为在core-default.xml中定义的hadoop.tmp.dir，其默认值为/tmp/hadoop-${user.name}，另一个为定义在mapred-default.xml中的mapred.local.dir，该参数指定了保存MapReduce中间数据文件的目录，其默认值为${hadoop.tmp.dir}/mapre

2014-03-23 14:44:19 3811 1

原创 Hadoop学习之MapReduce(三)

在学习过MapReduce框架的几个关键类和接口后（只是简单的说明了类或者接口的作用及使用方式，要想深入了解如何工作的就需要深入研究源代码了，这也是计划中的学习任务），接下来看看任务的执行和环境，主要涉及的还是一些参数。TaskTracker将mapper/reducer任务作为子进程在不同的jvm中执行，子任务继承了父进程TaskTracker的环境。用户可以通过 mapred.{map|red

2014-03-19 15:20:14 3088 1

原创 Hadoop学习之MapReduce(二)

在通过WordCount的例子直观地了解了MapReduce框架的作业如何编写后，现在对MapReduce框架中的关键接口或者类进行深入地地探索和学习。主要讲解Hadoop1.x中的接口和类，也就是org.apache.hadoop.mapreduce包中的接口和类，上面介绍的WordCount作业也是实现了这个包中的接口和类。首先会介绍Mapper和Reducer类，应用程序一般通过集成这两个类

2014-03-17 15:27:16 3504 1

原创机器学习实战笔记之k-近邻算法

读研时期的课题研究为神经网络，也算与机器学习有些渊源。可惜我所读大学的教授们认为神经网络太理论化了，没有多少实际的用处（显然最近几年大数据和深度学习的飞速发展远远超出了他们当时的预期），这也多少导致我没有深入的研究神经网络。或许当时选择神经网络是正确的，现在很多地方都需要类似的人工智能手段去分析数据，探索数据，也正是因此，决定潜心学习机器学习以及深度学习。机器学习有很多很好的资料，比如《机器学习》

2014-03-16 12:18:33 3686

原创 Linux文件特殊权限

对Linux文件的一般权限，即rwx已经有些了解了，用数字表示分别为4,2,1。在学习Hadoop的LinuxTaskController时遇到了一些特殊权限的设置，虽然之前已经了解这些特殊权限，大体上指的是临时获得文件所有者或者用户组的权限，这样如果该文件为可执行文件，则可以对文件所有者或者用户组的资源进行一些操作。比如，使用命令ls-al 查看/etc/passwd文件，可以发现该文件的所

2014-03-14 15:51:51 5840

原创 Hadoop学习之MapReduce(一)

在学习过了HDFS架构和Hadoop的配置管理后，现在学习MapReduce应用程序的编写和管理。首先简单介绍一下MapReduce框架。MapReduce是一个易于编写程序的软件框架，这些应用程序以可靠的、容错的模式并行的运行在很大规模的商用硬件集群上（数以千计的节点），处理超大数量的数据（超过TB的数据集）。一个MapReduce作业通常将输入数据集分割为独立的数据块，这些数据块被map任

2014-03-12 14:19:40 3790 1

原创 Windows 7-64位安装PLSQL-Developer

64位oracle无法使用PL/SQL Developer的主要原因是oci.dll是64位的，而PL/SQL developer只有32位的，在使用64位oci.dll文件时出错。最方便的解决方法是使用32位组件，配置如下： 1、到oracle官网下载Oracle Instant Client,instantclient-basic-win32-10.2.0.5.zi

2014-03-11 09:22:55 3395

原创 Hadoop学习之Hadoop集群的定制配置（二）

除了上篇博客介绍的管理hadoop后台进程的参数外，还有其它一些参数或者功能用于管理hadoop的运行方式，比如任务的启动与控制、TaskTracker节点的监控等。先看看hadoop的任务控制器。任务控制器是MapReduce框架中定义用户的map和reduce任务如何启动和控制的一些类。任务控制器可以在要求定制用户任务的启动过程或者控制过程的集群中使用，比如，在某些集群中，可能要求以提交作

2014-03-10 16:28:27 3404 1

原创 Hadoop学习之Hadoop集群的定制配置（一）

之前已经在七台物理机上以全分布模式安装了Hadoop集群，除了制动NameNode、JobTracker、DataNode、TaskTracker及相关的端口号外，并没有对集群配置做进一步的设定，都保留了默认值。而要想使Hadoop集群发挥更大的作用则需要根据实际情况对配置做修改，下面将介绍如何在Hadoop集群中对一些配置项做修改，由于运维Hadoop集群的经验尚浅难免有所遗漏或者不足。Ha

2014-03-05 09:27:51 3834 1

skyWalker_ONLY