十四不是八-CSDN博客

原创关于使用“Hadoop free”版本的Spark

Using Spark's "Hadoop Free" BuildSpark uses Hadoop client libraries for HDFS and YARN. Starting in version Spark 1.4, the project packages “Hadoop free” builds that lets you more easily connect a

2016-03-21 17:12:30 743

转载 Spark安装与基础使用

Spark快速入门指南 – Spark安装与基础使用Apache Spark 是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark 正如其名，最大的特点就是快（Lightning-fast），可比 Hadoop MapReduce 的处理速度快 100 倍。此外，Spark 提供了简单易用的 API，几行代码就能实现 WordCount。本教程主要参考官网快速入门教程，介绍了

2016-03-21 15:35:18 5269 2

Spark的运行模式多种多样，灵活多变，部署在单机上时，既可以用本地模式运行，也可以用伪分布式模式运行；而当以分布式集群的方式部署时，也有众多的运行模式可供选择，这取决于集群的实际情况，底层的资源调度既可以依赖于外部的资源调度框架，也可以使用Spark内建的Standalone模式。对于外部资源调度框架的支持，目前的实现包括相对稳定的Mesos模式，以及还在持续开发更新中的Hadoop YARN模

2016-03-19 19:47:11 2240

转载深入分析MySQL ERROR 1045 (28000)

这几天在MySQL新建用户后，出现访问拒绝的问题，错误码为ERROR 1045(28000)。在网上搜索了很久，找到了很多解决办法，但很遗憾的是这么多办法没有一个能解决该问题。虽然出现的错误码28000很多人都遇到过，但原因也有所不同，有的是mysql.user表中没有信息，有的是root用户没有密码（那就不用密码登录），而使用mysql-5.6.19时，mysql.user有用户信息，root用

2016-03-14 21:56:19 407

转载 hive的安装（元数据库: MySQL）

hive的安装（元数据库: MySQL）hive介绍：Apache Hive数据仓库软件提供对存储在分布式中的大型数据集的查询和管理，它本身是建立在Apache Hadoop之上，主要提供以下功能：（1）它提供了一系列的工具，可用来对数据进行提取/转化/加载（ETL）；（2）是一种可以存储、查询和分析存储在HDFS（或者HBase）中的大规模数据的机制；（3

2016-03-10 16:49:45 444

转载 linux shell 管道命令(pipe)使用及与shell重定向区别

看了前面一节：linux shell数据重定向（输入重定向与输出重定向）详细分析估计还有一些朋友是头晕晕的，好复杂的重定向了。这次我们看下管道命令了。shell管道，可以说用法就简单多了。管道命令操作符是：”|”,它仅能处理经由前面一个指令传出的正确输出信息，也就是 standard output 的信息，对于 stdandard error 信息没有直接处理能力。然后，传

2016-03-09 17:14:04 546

转载管道命令和xargs的区别(经典解释)

一直弄不懂，管道不就是把前一个命令的结果作为参数给下一个命令吗，那在 | 后面加不加xargs有什么区别NewUserFF 写道:懒蜗牛Gentoo 写道:管道是实现“将前面的标准输出作为后面的标准输入”xargs是实现“将标准输入作为命令的参数”你可以试试运行：代码:echo "--help"|catecho "--help"|xargs cat看

2016-03-09 17:12:32 449

转载 Hbase集群安装前注意事项

1） Java：（hadoop已经安装了），2） Hadoop 0.20.x / Hadoop-2.x 已经正确安装（ hadoop安装参考hadoop2完全分布式最新高可靠安装文档），并且可以启动 HDFS 系统，并且需要确保hdfs能够上传和读写文件。例如：我们上传hbase的所有xml配置文件上传文件：上面说明，hdfs运行正常。3） ss

2016-03-08 08:49:35 886

转载 Hbase完全分布式配置

----------------------------------------------------------------------------------------------------------- 分布式模式配置在进行下面配置之前需要注意的问题：第一：首先需要建立，下面配置文件中的目录：下面配置文件需要建立的的文件：1.hbase临时目录，这里对应的是

2016-03-08 08:40:29 3471

转载 HBase 系统架构

HBase是Apache Hadoop的数据库，能够对大型数据提供随机、实时的读写访问。HBase的目标是存储并处理大型的数据。HBase是一个开源的，分布式的，多版本的，面向列的存储模型。它存储的是松散型数据。HBase特性：1 高可靠性2 高效性3 面向列4 可伸缩5 可在廉价PC Server搭建大规模结构化存储集群HBase是Google BigTable的开源

2016-03-07 08:47:14 317

转载 AdaBoost从原理到实现

一.引入对于Adaboost，可以说是久闻大名，据说在Deep Learning出来之前，SVM和Adaboost是效果最好的两个算法，而Adaboost是提升树(boosting tree)，所谓“提升树”就是把“弱学习算法”提升(boost)为“强学习算法”(语自《统计学习方法》)，而其中最具代表性的也就是Adaboost了，貌似Adaboost的结构还和Neura

2016-03-06 13:30:12 346

转载 Adaboost 算法

菜鸟最近开始学习machine learning。发现adaboost 挺有趣，就把自己的一些思考写下来。主要参考了http://stblog.baidu-tech.com/?p=19，其实说抄也不为过，但是我添加了一些我认为有意思的东西，所以我还是把它贴出来了，呵呵。一 Boosting 算法的起源boost 算法系列的起源来自于PAC Learnability(PAC 可学

2016-03-06 11:51:33 504

转载随机森林算法

随机森林算法1. 随机森林使用背景1.1 随机森林定义随机森林是一种比较新的机器学习模型。经典的机器学习模型是神经网络，有半个多世纪的历史了。神经网络预测精确，但是计算量很大。上世纪八十年代Breiman等人发明分类树的算法（Breiman et al. 1984），通过反复二分数据进行分类或回归，计算量大大降低。2001年Breiman把分类树组合成随机森林（Brei

2016-03-06 11:24:54 1035

转载支持向量机(SVM)基础

本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用，但请注明出处，如果有问题，请联系wheeleast@gmail.com 前言：又有很长的一段时间没有更新博客了，距离上次更新已经有两个月的时间了。其中一个很大的原因是，不知道写什么好-_-，最近一段时间看了看关于SVM(Suppor

2016-03-06 10:50:53 349

转载机器学习经典算法logistic回归

一、算法简要我们希望有这么一种函数：接受输入然后预测出类别，这样用于分类。这里，用到了数学中的sigmoid函数，sigmoid函数的具体表达式和函数图象如下：可以较为清楚的看到，当输入的x小于0时，函数值0.5，将分类预测为1。1.1 预测函数的表示 1.2参数的求解二、代码实现函数sigmoid计算相应

2016-03-06 09:35:42 1681

转载对线性回归，logistic回归和一般回归的认识

原文地址：http://blog.csdn.net/statdm/article/details/75851531 摘要本报告是在学习斯坦福大学机器学习课程前四节加上配套的讲义后的总结与认识。前四节主要讲述了回归问题，回归属于有监督学习中的一种方法。该方法的核心思想是从连续型统计数据中得到数学模型，然后将该数学模型用于预测或者分类。该方法处理的数据可以是多维的。

2016-03-04 21:14:49 309

转载 SVM-支持向量机算法概述

（一）SVM的背景简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中[10]。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度，Ac

2016-03-04 20:57:45 514

转载支持向量机通俗导论（理解SVM的三层境界）

原文地址：http://blog.csdn.net/v_july_v/article/details/7624837作者：July 。致谢：pluskid、白石、JerryLead。说明：本文最初写于2012年6月，而后不断反反复复修改&优化，修改次数达上百次，最后修改于2016年1月。前言动笔写这个支持向量机(support vector mach

2016-03-04 20:52:14 3013

转载支持向量机（SVM）算法

支持向量机（SVM）算法支持向量机(support vector machine)是一种分类算法，通过寻求结构化风险最小来提高学习机泛化能力，实现经验风险和置信范围的最小化，从而达到在统计样本量较少的情况下，亦能获得良好统计规律的目的。通俗来讲，它是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，即支持向量机的学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解

2016-03-04 19:42:25 639

转载信息熵与Gini不纯度

1、信息熵信息论中的信息量和信息熵。信息量：信息量是对信息的度量，就跟温度的度量是摄氏度一样，信息的大小跟随机事件的概率有关。例如：在哈尔滨的冬天，一条消息说：哈尔滨明天温度30摄氏度，这个事件肯定会引起轰动，因为它发生的概率很小（信息量大）。日过是夏天，“明天温度30摄氏度”可能没有人觉得是一个新闻，因为夏天温度30摄氏度太正常了，概率太大了（信息点太小

2016-03-04 15:31:47 16094

转载 CART: 分类与回归树

http://blog.csdn.net/u011067360/article/details/24871801主题决策树算法一、决策树的类型在数据挖掘中，决策树主要有两种类型: 分类树的输出是样本的类标。回归树的输出是一个实数 (例如房子的价格，病人呆在医院的时间等)。术语分类和回归树 (CART) 包含了上述两种决策树, 最先由Breiman

2016-03-04 14:44:25 2941

转载 C4.5算法

C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习：给定一个数据集，其中的每一个元组都能用一组属性值来描述，每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习，找到一个从属性值到类别的映射关系，并且这个映射能用于对新的类别未知的实体进行分类。 C4.5由J.Ross Quinlan在ID3的基础上提出的。ID3算法用来构造决策树。决策树是一种类

2016-03-04 14:08:47 1611

转载什么是信息增益(Information Gain)

当我们需要对一个随机事件的概率分布进行预测时，我们的预测应当满足全部已知的条件，而对未知的情况不要做任何主观假设。在这种情况下，概率分布最均匀，预测的风险最小。因为这时概率分布的信息熵最大，所以称之为“最大熵法”。最大熵法在数学形式上很漂亮，但是实现起来比较复杂，但把它运用于金融领域的诱惑也比较大，比如说决定股票涨落的因素可能有几十甚至上百种，而最大熵方法恰恰能找到一个同时满足成千上万种不同条件的

2016-03-03 21:03:56 21021 1

转载 ID3算法

先上问题吧，我们统计了14天的气象数据(指标包括outlook，temperature，humidity，windy)，并已知这些天气是否打球(play)。如果给出新一天的气象指标数据:sunny,cool,high,TRUE，判断一下会不会去打球。outlooktemperaturehumiditywindyplaysunny

2016-03-03 20:13:12 1942

转载关联分析：FP-Growth算法

关联分析：FP-Growth算法　　关联分析又称关联挖掘，就是在交易数据、关系数据或其他信息载体中，查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。关联分析的一个典型例子是购物篮分析。通过发现顾客放入购物篮中不同商品之间的联系，分析顾客的购买习惯。比如，67%的顾客在购买尿布的同时也会购买啤酒。通过了解哪些商品频繁地被顾客同时购买，可以帮助零售商制定营销策略。关联分析也可以

2016-03-03 13:30:30 1154

转载 FP-Tree算法的实现

在关联规则挖掘领域最经典的算法法是Apriori，其致命的缺点是需要多次扫描事务数据库。于是人们提出了各种裁剪（prune）数据集的方法以减少I/O开支，韩嘉炜老师的FP-Tree算法就是其中非常高效的一种。支持度和置信度严格地说Apriori和FP-Tree都是寻找频繁项集的算法，频繁项集就是所谓的“支持度”比较高的项集，下面解释一下支持度和置信度的概念。设事务数据库为：

2016-03-02 21:17:14 828

转载 Apriori算法

由啤酒和尿布引出：在一家超市中，人们发现了一个特别有趣的现象：尿布与啤酒这两种风马牛不相及的商品居然摆在一起。但这一奇怪的举措居然使尿布和啤酒的稍量大幅增加了。这可不是一个笑话，而是一直被商家所津津乐道的发生在美国沃尔玛连锁超市的真实案例。原来，美国的妇女通常在家照顾孩子，所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布，而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。这个发现为商家带来了大

2016-03-02 19:10:26 1320

转载【项目管理和构建】——Maven下载、安装和配置（二）

前言在上篇博文【项目管理和构建】——Maven简介（一）中我们了解到maven是一种全新的项目构建方式，让我们的开发更加简单,高效。Maven主要做的是两件事：统一开发规范与工具统一管理jar包这两件事情他都做到了，而且还做了更多的事情。Maven还可以管理项目的整个声明周期，包括编译，构建，测试，发布，报告等等。目前Apache下绝大多数项目都已

2016-03-01 11:19:59 314

转载 MavenEclipse

阅读目录　　相关书籍　　什么是maven?　　如何在eclipse中使用maven　　maven工程是什么样子的？　　Eclipse中maven常用的命令前言：　　由于最近工作学习，总是能碰到Maven的源码。虽然平时工作并不使用Maven，但是为了学习一些源码，还是必须要了解下。这篇文章不是一个全面的Maven解析，而是一个简单的介绍，包括Eclips

2016-03-01 10:16:30 296

转载 Eclipse 下mahout的配置与使用

mahout 是一个开源的旨在为实际问题提供可伸缩性算法的软件。官方主页：http://mahout.apache.org/QuickStart：https://cwiki.apache.org/confluence/display/MAHOUT/Quickstart 目前的版本是0.4 ，此例展示了在eclipse下如何配置并应用mahout到你的程序中。

2016-03-01 08:55:48 682

转载 Mahout决策树算法源码分析（2）

决策树Partial Implementation源码的第二部分为：BuildForest，其源码所在位置为：MAHOUT_HOME/example/src/main/java/org/apache/mahout/classifier/df/mapreduce/BuildForest.java，现对其进行简要分析：打开源码可以看到，BuildForest有如下四个步骤：(1)创建一

2016-02-29 20:00:43 405

转载【Hadoop基础】hadoop fs 命令

1，hadoop fs –fs [local | ]：声明hadoop使用的文件系统，如果不声明的话，使用当前配置文件配置的，按如下顺序查找：hadoop jar里的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-site.xml。使用local代表将本地文件系统作为hadoop的

2016-02-29 15:53:02 258

转载 Mahout学习路线图

Hadoop家族系列文章，主要介绍Hadoop家族产品，常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa，新增加的项目包括，YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。从2

2016-02-29 13:33:12 400

转载 shell命令执行顺序

shell命令执行顺序&&,||,(),{} 四个符号的运用shell脚本执行命令的时候，有时候会依赖于前一个命令是否执行成功。而&&和||就是用来判断前一个命令执行效果的。1 && 使用方法：命令1 && 命令2 这个方式简单明了，命令1如果返回结果为真（即执行返回为0，成功执行）后，命令2才被执行换句话说，如果命令1

2016-02-28 08:09:42 1022

转载 Could not load the FreeMarker template named 'select'

目前项目使用struts2, 所以页面中就使用到了struts2的标签，但是今天在做新的功能的时候突然出现 “Could not load the FreeMarker template named 'select'” 这样的错误，看错误信息是找不到struts2 的select 标签，但是其他页面也都用到了select，也没有出现错误。最后发现问题出在了action中，我在action

2016-02-27 21:16:46 458

转载 JQuery Uploadify 基于JSP的无刷新上传实例

项目需要实现一个无刷新批量文件上传功能，仔细研究了下，发现JQuery 提供的Uploadify插件十分不错，不过官方的实例是基于php的，下面我用jsp+servlet简单实现了这个功能，废话少说，先看效果图：1、初始化页面：2、选择多个文件（可一次多选）后：3、点击开始上传（上传完就自动消失）效果就是上面那样，

2016-02-27 20:53:44 461

转载 SSH-jar包相应作用

原文地址：http://www.cnblogs.com/sunxucool/archive/2013/05/23/3094949.html1）Struts中的jar包 jar包名称作用struts2-core-2.x.x.jarstruts2的核心jar包javassist-3.

2016-02-27 20:51:56 559

转载 s2sh框架整合demo介绍-注解方式

s2sh整合之注解方式说明：本文档所采用的框架版本为：Struts 2.1.8, Sping2.5.5, Hibernate 3.5.6Action层未使用注解，依然是用的配置文件，个人觉得Action层使用注解并没有给开发带来多少简化，反而更加难以维护1. 需要的jar包：------------Strut2-----------:commons-

2016-02-27 20:48:49 333

转载基于Mahout的电影推荐系统

1.Mahout 简介Apache Mahout 是 Apache Software Foundation（ASF）旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。经典算法包括聚类、分类、协同过滤、进化编程等等，并且，在 Mahout 的最近版本中还加入了对 Apache Hadoop 的支持，使这些算法可以更高效的运行在云

2016-02-27 19:02:50 859 1

转载 linux 下shell脚本执行多个命令的方法

1.每个命令之间用;隔开说明：各命令的执行给果，不会影响其它命令的执行。换句话说，各个命令都会执行，但不保证每个命令都执行成功。2.每个命令之间用&&隔开说明：若前面的命令执行成功，才会去执行后面的命令。这样可以保证所有的命令执行完毕后，执行过程都是成功的。3.每个命令之间用||隔开说明：||是或的意思，只有前面的命令执行失败后才去执行下一条命令，直到执行成功一条命

2016-02-27 16:15:35 2125

空空如也

空空如也