2016年03月_数据文字工作者

转载 Spark Streaming+kafka+eclipse编程

http://blog.csdn.net/amber_amber/article/details/46049455eclipse本身对Scala的支持不是很友好，但还是有一部分同学（比如我）习惯用eclipse来做开发。所以这里提供结合spark streaming+kafka编程在eclipse上实现的过程。安装配置单机版kafka如果已经有kafka

2016-03-31 17:56:06 996

转载 spark 1.1.0 编译使用 & 爬坑记录

虽然1.2.1版本也已经出来了，估计还是有很多人在用1.1.0或者1.0.0 版本。所以把编译和使用1.1.0版本时遇到的一些问题和解决思路写在这里，供参考。因为我们对cdh版本的hadoop做了一些生产环境相关的修改，所以每次升级spark都需要基于源码自己进行编译。编译方法很简单，而且我在这篇文章 http://blog.csdn.net/amber_amber/article/det

2016-03-31 17:53:40 945

转载修改hadoop源码后，hadoop和spark的编译过程

近期对hadoop2.0源码做了一些修改，根据业务需要，添加了一点小小的功能。而且我们的hadoop2.0环境上同时运行着MapReduce和spark计算框架，所以hadoop源码的修改同时涉及到了hadoop的重新编译，以及spark的重新编译。下面是对编译过程的一点记录。编译的主要难点和关键在对spark的编译。版本：hadoop： cdh5.1.0-hadoop2.3.0spa

2016-03-31 17:46:40 619

转载 spark部署：在YARN上运行Spark

相关内容Spark中文手册-编程指南Spark之一个快速的例子Spark之基本概念Spark之基本概念Spark之基本概念（2）Spark之基本概念（3）Spark-sql由入门到精通Spark-sql由入门到精通续spark GraphX编程指南（1）spark GraphX编程指南（2）spark部署：提交应用程序及独立部署模式配

2016-03-30 15:13:05 4860

原创 sparkHA配置报错

Spark的的配置文件spark-env.sh配置如下：export JAVA_HOME=/usr/local/jdk1.7.0_79export SCALA_HOME=/home/hadoop/scala-2.10.1exportHADOOP_HOME=/home/hadoop/hadoop-2.5.0export SPARK_MASTER_IP=Master1expor

2016-03-30 15:00:58 3884

原创硬盘故障时无法关机：bash: /sbin/shutdown: Input/output error

如果硬盘可能会出现锁死或坏道的故障，会造成SHELL命令的失效，包括reboot,powoff, shutdown,用正常的命令是没法完成重启的。现象如下：# rebootbash: /sbin/reboot: Input/output error# shurdown -r nowbash: /sbin/shutdown: Input/output error很明显

2016-03-30 10:16:09 4762

转载 vmware vsphere client vclient viclient 下载地址

vSphere v4.1 - VMware vSphere Client v4.1 : VMware-viclient-all-4.1.0-258902.exe - VMware vSphere Client v4.1 Update 1 : VMware-viclient-all-4.1.0-345043.exe - VMware vSphere Client v4.1 Update

2016-03-30 09:55:33 19969

原创 Hive安装报错：Terminal initialization failed; falling back to unsupported

[ERROR] Terminal initialization failed; falling back to unsupportedjava.lang.IncompatibleClassChangeError: Found class jline.Terminal, but interface was expected at jline.TerminalFactory.cr

2016-03-29 11:50:35 3492 2

原创编译spark1.6.0出现 Failed to execute goal org.codehaus.mojo:exec-maven-plugin:1.4.0:exec (sparkr-pkg)

spark 1.6 编译1、下载spark1.6源码2、安装maven3、解压spark1.6 执行export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m" cd spark1.6.0 ./make-distribution.sh --name hadoop2.

2016-03-28 09:46:34 7784

原创 centos 自带mysql卸载时出现无法卸载情况

[dianyi@localhost ~]$ rpm -e mysql-libs-5.1.52-1.el6_0.1.x86_64error: Failed dependencies: libmysqlclient.so.16()(64bit) is needed by (installed) postfix-2:2.6.6-2.2.el6_1.x86_64 libm

2016-03-27 10:11:25 347

翻译 ResourceManager High Availability

Apache 官方原文地址：http://hadoop.apache.org/docs/r2.5.2/hadoop-yarn/hadoop-yarn-site/ResourceManagerHA.html一简介二架构1 RM 切换11 手工故障切换22 自动故障切换23 在 RM 故障切换中的客户端ApplicationMaster 和 NodeManage

2016-03-25 14:55:21 783

转载 Storm集群组件和编程模型

Storm工作原理： Storm是一个开源的分布式实时计算系统，常被称为流式计算框架。什么是流式计算呢？通俗来讲，流式计算顾名思义：数据流源源不断的来，一边来，一边计算结果，再进入下一个流。例如一般金融系统一直不断的运行，金融交易、用户所有行为都记录进日志里，日志分析出网站运维、猎户信息；海量数据使得单节点处理不过来，所以就用到分布式计算机型，storm 是其中的典型代表之一，一般

2016-03-25 09:20:43 522

Hadoop分布式文件系统实现了一个和POSIX系统类似的文件和目录的权限模型。每个文件和目录有一个所有者（owner）和一个组（group）。文件或目录对其所有者、同组的其他用户以及所有其他用户分别有着不同的权限。对文件而言，当读取这个文件时需要有r权限，当写入或者追加到文件时需要有w权限。对目录而言，当列出目录内容时需要具有r权限，当新建或删除子文件或子目录时需要有w权限，当访问目录的子节点时

2016-03-25 09:14:52 4171

转载决策树分类和预测算法的原理及实现

作者：蓝鲸算法决策树是一种通过对历史数据进行测算实现对新数据进行分类和预测的算法。简单来说决策树算法就是通过对已有明确结果的历史数据进行分析，寻找数据中的特征。并以此为依据对新产生的数据结果进行预测。决策树由3个主要部分组成，分别为决策节点，分支，和叶子节点。其中决策树最顶部的决策节点是根决策节点。每一个分支都有一个新的决策节点。决策节点下面是叶子节点。每个决策节点表示一个待分类的

2016-03-25 09:13:39 6196

转载 Flume日志收集分层架构应用实践

Flume作为一个日志收集工具，非常轻量级，基于一个个Flume Agent，能够构建一个很复杂很强大的日志收集系统，它的灵活性和优势，主要体现在如下几点：模块化设计：在其Flume Agent内部可以定义三种组件：Source、Channel、Sink组合式设计：可以在Flume Agent中根据业务需要组合Source、Channel、Sink三种组件，构建相对复杂的日志流

2016-03-22 13:52:39 2473

转载 Flume(NG)架构设计要点及配置实践

Flume NG是一个分布式、可靠、可用的系统，它能够将不同数据源的海量日志数据进行高效收集、聚合、移动，最后存储到一个中心化数据存储系统中。由原来的Flume OG到现在的Flume NG，进行了架构重构，并且现在NG版本完全不兼容原来的OG版本。经过架构重构后，Flume NG更像是一个轻量的小工具，非常简单，容易适应各种方式日志收集，并支持failover和负载均衡。架构设计要点

2016-03-22 13:48:35 495

转载使用 Flume 部署和管理可扩展的 Web 服务

问题导读：1.Flume是什么？2.Avro是什么？3.怎样使用Flume部署和管理可扩展的 Web 服务？机器生成的日志数据对于查找各种硬件和软件故障的根源至关重要。来自该日志数据的信息可提供改进系统架构、减缓系统退化和改善正常运行时间方面的反馈。最近，一些企业开始使用这些日志数据获取业务洞察。在使用一个容错的架构时，Flume 是一个拥有高效收集

2016-03-22 13:46:11 1237 1

转载达观数据分析平台架构和Hive实践

1 Hive原理Hadoop是一个流行的开源框架，用来存储和处理商用硬件上的大规模数据集。对于HDFS上的海量日志而言，编写Mapreduce程序代码对于类似数据仓库的需求来说总是显得相对于难以维护和重用，Hive作为一种基于Hadoop的数据仓库解决方案应运而生，并得到了广泛应用。Hive是基于Hadoop的数据仓库平台，由Facebook贡献，其支持类似SQL的结构化查询功能。Facebo

2016-03-22 13:28:36 835

转载 hive权限控制介绍

Hive从0.10版本(包含0.10版本)以后可以通过元数据来控制权限，Hive-0.10之前的版本对权限的控制主要是通过Linux的用户和用户组来控制，不能对Hive表的CREATE、SELECT、DROP等操作进行控制，当然Hive基于元数据来控制权限也不是完全安全的，目的就是为了防止用户不小心做了不该做的操作。在使用Hive的元数据配置权限之前必须现在hive-site.xml中配置两个

2016-03-22 11:57:38 405

转载生产环境部署Hadoop+Spark+HBase+Hue

总结一下在生产环境部署Hadoop+Spark+HBase+Hue等产品遇到的问题、提高效率的方法和相关的配置。集群规划假设现在生产环境的信息如下：服务器数量：6操作系统：Centos7Master节点数：2Zookeeper节点数：3Slave节点数：4划分各个机器的角色如下：主机名角色运行进程h

2016-03-22 11:36:31 3088

转载 Hadoop源码分析下载、最新最全资料分享

apache_hadoop源码，下载：http://archive.apache.org/dist/Hadoop 工具下载：http://hadoop.apache.org/Hadoop大数据最新最全资料下载地址：http://download.csdn.net/album/detail/3047

2016-03-22 11:07:37 368

原创 Storm主要组件介绍

Storm主要分为两种组件Nimbus和Supervisor。这两种组件都是快速失败的，没有状态。任务状态和心跳信息等都保存在Zookeeper上的，提交的代码资源都在本地机器的硬盘上。Nimbus负责在集群里面发送代码，分配工作给机器，并且监控状态。全局只有一个。Supervisor会监听分配给它那台机器的工作，根据需要启动/关闭工作进程Worker。每一个要运行Storm的机器上都

2016-03-22 11:07:05 2016

翻译 Spark MLlib 1.6 -- 特征抽取和变换

7.1 TF-IDFTF-IDF是一种特征向量化方法，这种方法多用于文本挖掘，通过算法可以反应出词在语料库中某个文档中的重要性。文档中词记为t，文档记为d , 语料库记为D . 词频TF(t,d) 是词t 在文档d 中出现的次数。文档频次DF(t,D) 是语料库中包括词t的文档数。如果使用词在文档中出现的频次表示词的重要程度，那么很容易取出反例，即有些词出现频率高反而没多少信息量，如,”

2016-03-22 10:39:57 531

转载 Docker应用的监控

Docker应该也属于交付之间的环节，最终交付之后还是要提供给应用，如何更好提供的服务，就需要去了解Docker不同的运行环境和运行状态。利用率、内存使用率，以及整个对于网络的情况是什么样的，可以通过一些文件来获得状态信息。比如CPU的文件，以及用网卡做监控的时候怎么做网络的协同。下面有一个链接，有一些公开的脚本，可以拿这些脚本定期的去跑，这样就是说可以拿到Docker基础的状态。如果说D

2016-03-22 10:36:06 1150

原创在应用角度Docker容器技术带来的改变

1. 微服务：虚拟化的场景下使得微服务架构更加流行，以前在早期的时候提SOA，可能像服务这种架构的时候，大家可以提这个概念，但是Docker容器技术的出现使SOA架构更加敏感，现在说微服务是比较流行的。比如说使用的REST风格架构，以及我们更多的是拿这种去做分布式的部署，可以在多个节点，不同的地域，不同的城市之间布局我们的服务，来提供更好的统一的输入口。2. DevOps：对于

2016-03-22 10:25:39 723

原创 Docker与传统虚拟化的差别

1. VM –> Dockers (职能更少) 原来由一个虚拟机变成现在多个Docker，每一个Docker里面所运行的服务智能会更少。2. IP –> Ips (关系更加复杂) 一个IP变成多个IP，多个IP承载多个服务，整个应用之间的关系更加复杂，不像在原来有一个VM承载所有的服务，现在把所有的大的服务拆分为很多细小的微服务提供给用户，体现它的价值。3. 服务

2016-03-22 10:21:09 3371

转载 CentOS 7 部署 Kubernetes

http://www.fangyunlin.com/?p=54截止至2015年9月1日，CentOS 已经把 kubernetes 加入官方源。目前各相关组件版本如下kubernetes-1.0.0docker-1.7.1flannel-0.2.0etcd-2.0.11kubernetes环境角色如下192.168.1.248 etcd server192.168.

2016-03-18 15:49:56 2178

转载 Hadoop平台上用Sqoop在Hive和DB2数据库之间传输数据的实践和总结

笔者总结下Sqoop初学习过程中的一些经验，与大家分享和讨论下。首先，在网上找了些零碎的资料了解皮毛后，直接参阅官方的文档地址http://archive.cloudera.com/cdh/3/sqoop/SqoopUserGuide.html 。然后，通过manual文件来获取更多的信息，命令如下代码所示。最后，在网上搜索到一些实例，但是这些实例不一定适合我的工作环境，所以需要测试和修改，得到适

2016-03-17 12:23:25 1659

转载 Hadoop之使用python实现数据集合间join操作

hadoop之steaming介绍hadoop有个工具叫做steaming，能够支持python、shell、C++、PHP等其他任何支持标准输入stdin及标准输出stdout的语言，其运行原理可以通过和标准java的map-reduce程序对比来说明：使用原生java语言实现Map-reduce程序 hadoop准备好数据后，将数据传送给java的map程序

2016-03-17 11:38:17 913

转载协同过滤介绍和简单推荐系统的实现

本文介绍推荐系统、协同过滤思想，两种基本的相似度衡量，并用python实现。最后就MovieLens数据集上作出简单的推荐。一、相关知识（1）推荐系统如今，推荐系统已经在多方面得到应用，例如淘宝、当当、亚马逊等网站的商品推荐。而个性化推荐系统则是通过发掘用户的兴趣爱好，作出针对性的推荐。个性化推荐的方法较多，最常用的是协同过滤方法，而本文主要讲的也是基于协同过滤的个性化推荐。

2016-03-17 11:30:41 512

转载集群配置必知：linux下yum安装及配置

公司使用的是linux搭建服务器，linux安装软件能够使用yum安装依赖包是一件非常简单而幸福的事情，所以这里简单介绍一下linux安装yum源流程和操作。方法/步骤第一步查看、卸载已安装的yum包查看已安装的yum包#rpm –qa|grep yum卸载软件包#rpm –e –nodeps yum 第二步：下载安装依赖包pyt

2016-03-17 10:55:55 654

转载基于kubernetes构建Docker集群管理详解

一、前言 Kubernetes 是Google开源的容器集群管理系统，基于Docker构建一个容器的调度服务，提供资源调度、均衡容灾、服务注册、动态扩缩容等功能套件，目前最新版本为0.6.2。本文介绍如何基于Centos7.0构建Kubernetes平台，在正式介绍之前，大家有必要先理解Kubernetes几个核心概念及其承担的功能。以下为Kubernetes的架构设计图：

2016-03-10 18:03:27 1334

转载 Docker时代来了，你准备好了吗

刚刚过去的2014年或许是史上最热的一年，在这火热的年份里，Docker 也好似一支被点燃的火箭，掀起一股股热浪。Docker之所以如此受人瞩目，并不是因为它创造了多么神奇的技术，而是因为它重新定义了软件的交付方式，进而将改变传统“开发-测试-部署”的软件流程。尤其是在云计算和开源软件大行其道的今天，Docker的出现正好顺应了时代的发展，占尽了天时地利人和。本文的重点不是讨论

2016-03-10 15:54:46 597

原创 Spark 1.6.0 单机安装配置

Apache Spark 1.6.0在单机的部署，与在集群中部署的步骤基本一致，只是少了一些master和slave文件的配置。直接安装scala与Spark就可以在单机使用，但如果用到hdfs系统的话hadoop和jdk也要配置，建议全部安装配置好。0.Spark的安装准备Spark官网的文档 http://spark.apache.org/docs/latest/ 里是这样说的：

2016-03-06 10:44:07 1323

转载 Windows下基于eclipse的Storm应用开发与调试

本文以一个简单的example来讲解如何开发storm应用程序1、创建maven工程　　在eclipse下创建maven工程，可以参照http://www.cnblogs.com/tovin/p/3822985.html　　 2、修改pom.xm添加依赖包　　使用maven-assembly-plugin插件将工程依赖的jar都一起打包　　storm的scope>设置p

2016-03-06 10:15:12 527

转载 Kafka是如何实现高吞吐率的

Kafka是分布式消息系统，需要处理海量的消息，Kafka的设计是把所有的消息都写入速度低容量大的硬盘，以此来换取更强的存储能力，但实际上，使用硬盘并没有带来过多的性能损失kafka主要使用了以下几个方式实现了超高的吞吐率顺序读写kafka的消息是不断追加到文件中的，这个特性使kafka可以充分利用磁盘的顺序读写性能顺序读写不需要硬盘磁头的寻道时间，

2016-03-06 10:12:37 3362

原创 MVC设计模式讲解及示例

mvc设计流程图：MVC概念：模型：

2016-03-04 12:05:53 3462

华为数据之道知识总结.xmind

数据治理知识体系.xmind

基于Elasticsearch2.1.1的JavaAPI基本操作代码示例

《医学信息决策与支持系统》题库

空空如也