2017年03月_anningzhu

转载如何用Maven创建web项目（具体步骤）

使用eclipse插件创建一个web project首先创建一个Maven的Project如下图我们勾选上Create a simple project （不使用骨架）这里的Packing 选择 war的形式由于packing是war包，那么下面也就多出了webapp的目录

2017-03-31 23:02:54 263

转载 Log4j配置详解

来自: http://www.blogjava.net/zJun/archive/2006/06/28/55511.htmlLog4J的配置文件(Configuration File)就是用来设置记录器的级别、存放器和布局的，它可接key=value格式的设置或xml格式的设置信息。通过配置，可以创建出Log4J的运行环境。1. 配置文件Log4J配置文件的基本格式如下：

2017-03-31 19:48:33 193

转载面试-大量数据的解决办法

此篇先介绍了几个概念，后面的面试题为对大数量的各种处理及解决办法：海量日志数据，提取出某日访问百度次数最多的那个IP。搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节？有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词？给定a、b两个文件，各存放50亿个url，每

2017-03-31 16:24:57 2518

转载大数据面试题

1、你处理过的最大的数据量？你是如何处理他们的？处理的结果。　　2、告诉我二个分析或者计算机科学相关项目？你是如何对其结果进行衡量的？　　3、什么是：提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则？　　4、什么是：协同过滤、n-grams, map reduce、余弦距离？　　5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库？

2017-03-31 16:10:44 1841

在大数据应用场景下，使用过Hive做查询统计分析的应该知道，计算的延迟性非常大，可能一个非常复杂的统计分析需求，需要运行1个小时以上，但是比之于使用MySQL之类关系数据库做分析，执行速度快很多很多。使用HiveQL写类似SQL的查询分析语句，最终经过Hive查询解析器，翻译成Hadoop平台上的MapReduce程序进行运行，这也是MapReduce计算引擎的特点带来的延迟问题：Map中间结果写

2017-03-29 18:44:23 371

转载如何用Hive 往HBase里面插入大量的数据

当我们用HBase 存储实时数据的时候，如果要做一些数据分析方面的操作，就比较困难了，要写MapReduce Job。 Hive 主要是用来做数据分析的数据仓库，支持标准SQL 查询，做数据分析很是方便，于是便很自然地想到用Hive来载入HBase的数据做分析，但是很奇怪地是，上网查了一下，只看到以下两种情况：1. 如何用Hive 往HBase里面插入大量的数据。2.

2017-03-29 15:53:29 1090

转载 hive插入操作

1.insert 语法格式为：基本的插入语法：INSERT OVERWRITE TABLE tablename [PARTITON(partcol1=val1,partclo2=val2)]select_statement FROM from_statementinsert overwrite table test_insert select * from test_table;

2017-03-29 14:37:03 396

转载 Failed with exception java.io.IOException:java.lang.IllegalArgumentException:&nbs

hive> show tables;OKFailed with exceptionjava.io.IOException:java.lang.IllegalArgumentException:java.net.URISyntaxException: Relative path in absolute URI:${system:user.name}Time taken: 0.193 se

2017-03-29 14:18:02 2465

转载 MapReduce统计结果输出到hbase

MapReduce统计结果直接输出hbase，我使用的是hadoop1.0.4版本和hbase 0.94版本，hadoop和hbase安装伪分布式。1.hadoop安装这里就不讲了。2.hbase安装我这里将一下。首页解压habase安装包到/home/hadoop目录。配置hosts文件如下：192.168.0.101 hadoop.master复制代

2017-03-27 22:18:05 2226

转载 MapReduce shuffle过程剖析及调优

MapReduce简介在Hadoop MapReduce中，框架会确保reduce收到的输入数据是根据key排序过的。数据从Mapper输出到Reducer接收，是一个很复杂的过程，框架处理了所有问题，并提供了很多配置项及扩展点。一个MapReduce的大致数据流如下图：更详细的MapReduce介绍参考Hadoop MapReduce原理与实例Mapper的输出

2017-03-27 22:14:37 711

转载 flume的sink端文件滚动配置项不起作用

1.flume滚动配置为何不起作用？2.通过源码分析得出什么原因？3.该如何解决flume小文件？本人在测试hdfs的sink，发现sink端的文件滚动配置项起不到任何作用，配置如下：[Bash shell] 纯文本查看复制代码?123456789

2017-03-27 21:34:16 2668

转载 Kafka Eagle

1.Kafka Eagle实现kafka消息监控的代码细节是什么?2.Kafka owner的组成规则是什么？3.怎样使用SQL进行kafka数据预览？4.Kafka Eagle是否支持多集群监控？1.概述在《Kafka 消息监控 - Kafka Eagle》一文中，简单的介绍了 Kafka Eagle这款监控工具的作用，截图预览，以及使用详情。今天

2017-03-27 21:29:41 1381

转载 hive中内部表和外部表的区别

1.在Hive里面创建一个表：hive> create table wyp(id int, > name string, > age int, > tele string) > ROW FORMAT DELIMITED > FIELDS TERMINATED BY '\t' > STORED AS TEXTFILE;OKTim

2017-03-23 15:23:47 625

转载 spark官方文档

1 概述(Overview)总体来讲，每一个Spark驱动程序应用都由一个驱动程序组成，该驱动程序包含一个由用户编写的main方法，该方法会在集群上并行执行一些列并行计算操作。Spark最重要的一个概念是弹性分布式数据集，简称RDD（resilient distributed dataset ）。RDD是一个数据容器，它将分布在集群上各个节点上的数据抽象为一个数据集，并且RDD能够进行一系列的

2017-03-23 00:48:53 497

转载 Spark性能优化

前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更

2017-03-21 23:34:00 183

转载 spark sql 中出现的问题

1.高并发情况下的内存泄露的具体表现很遗憾，spark的设计架构并不是为了高并发请求而设计的，我们尝试在网络条件不好的集群下，进行100并发的查询，在压测3天后发现了内存泄露。a)在进行大量小SQL的压测过程中发现，有大量的activejob在spark ui上一直处于pending状态，且永远不结束，如下图所示SQL上踩过的坑" style="margin:0

2017-03-13 12:14:16 1830

转载 json与xml的区别

1.定义介绍(1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。XML

2017-03-11 14:06:21 145

转载 ETL(三)

三、使用Oozie定期自动执行ETL1. Oozie简介（1）Oozie是什么 Oozie是一个管理Hadoop作业、可伸缩、可扩展、可靠的工作流调度系统，其工作流作业是由一系列动作构成的有向无环图（DAGs），协调器作业是按时间频率周期性触发的Oozie工作流作业。Oozie支持的作业类型有Java map-reduce、Streaming map-reduce、Pig

2017-03-10 18:15:53 326

转载 ETL(一)

一、使用Sqoop抽取数据1. Sqoop简介 Sqoop是一个在Hadoop与结构化数据存储（如关系数据库）之间高效传输大批量数据的工具。它在2012年3月被成功孵化，现在已是Apache的顶级项目。Sqoop有Sqoop1和Sqoop2两代，Sqoop1最后的稳定版本是1.4.6，Sqoop2最后版本是1.99.6。需要注意的是，1.99.6与1.4.6并不兼容，而且截止

2017-03-10 18:14:50 345

转载 ETL(二)

二、使用Hive转换、装载数据1. Hive简介（1）Hive是什么 Hive是一个数据仓库软件，使用SQL读、写、管理分布式存储上的大数据集。它建立在Hadoop之上，具有以下功能和特点：通过SQL方便地访问数据，适合执行ETL、报表、数据分析等数据仓库任务。提供一种机制，给各种各样的数据格式加上结构。直接访问HDFS的文件，或者访问如HBase的其它数据存储。

2017-03-10 18:13:34 348

转载 hive权限控制

Hive由一个默认的设置来配置新建文件的默认权限。Xml代码 property> name>hive.files.umask.valuename> value>0002value> description>The dfs.umask value for the hive created foldersdescription> p

2017-03-10 18:06:52 340

转载 flume安装及source、sink、Channels测试

1.flume该如何安装？2.flume都包含什么？3.Flume Source测试，该如何测试？它的的源都可以是什么？4.Flume Source测试，spool目录下是否可可包含相应的子目录？5.flume sink 测试hadoop，需要做哪些工作？1.实验场景操作系统：CentOS 5.5JDK版本：1.7.0_21Flume版本：1

2017-03-10 17:53:35 465

转载利用HQL统计: 新增用户数，日活，留存率

1.每天新增用户数怎么实现？2.日活怎么实现？3.留存率怎么实现？用户行为触发的日志上报,已经存放在Hive的外部分区表中.结构如下: 主要字段内容：dt表示日期,如20160510platform表示平台,只有两个选项,苹果和安卓mid是用户机器码,类似于网卡MAC地址什么的pver是版本channel是分发渠道现在需要统计每天用户

2017-03-10 17:38:05 8155

转载 Spark性能优化指南

数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。数据倾斜发生时的现象绝大多数task执行得都非常快，但个别task执行极慢。比如，总共有1000个task，997个task都在1分钟之内执行完了，但是剩余

2017-03-09 14:21:30 222

转载 Spark on Mesos: 粗粒度与细粒度实现分析

Mesos粗粒度CoarseMesosSchedulerBackend，是mesos的粗粒度scheduler backend实现。简单说一下mesos的Scheduler，提供的回调函数，及spark实现的逻辑：Mesos Scheduler接口触发场景spark实现逻辑void register

2017-03-07 20:56:42 478

转载 spark设计思想

1、spark的特点有哪些？2、spark的基本概念有哪些？3、spark的设计思想是什么？Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台。它立足于内存计算，从多迭代批量处理出发，兼收并蓄数据仓库、流处理和图计算等多种计算范式，是罕见的全能选手。 Spark已正式申请加入Apache孵化器，从灵机一闪的实验室“电火花”成长为大数据技术平台中异

2017-03-07 20:40:20 1704

转载 Spark架构简明分析

1. RDD有哪些特性？2. 如何理解Application、Job、Stage、TaskSet以及Task？3. Spark如何实现可插拔式的资源管理模块？4. Spark如何实现RPC通信模块？5. 启动Standalone集群的流程是怎样的？6. Spark集群计算时涉及到哪些核心组件？这些核心组件是如何交互的？7. Spark

2017-03-07 20:33:59 4100

转载 Transformations转换入门经典实例

Spark相比于Mapreduce的一大优势就是提供了很多的方法，可以直接使用；另一个优势就是执行速度快，这要得益于DAG的调度，想要理解这个调度规则，还要理解函数之间的依赖关系。本篇就着重描述下Spark提供的Transformations方法.依赖关系宽依赖和窄以来窄依赖(narrow dependencies)窄依赖是指父RDD仅仅被一个子RDD所使用，子RDD的每个

2017-03-07 20:30:59 402

转载 spark入门详解

1. Spark中的基本概念在Spark中，有下面的基本概念。Application:基于Spark的用户程序，包含了一个driver program和集群中多个executorDriver Program：运行Application的main()函数并创建SparkContext。通常SparkContext代表driver programExecutor：为某Applica

2017-03-07 20:24:36 7434

转载 Spark Core源码分析之RDD基础

RDDRDD初始参数：上下文和一组依赖abstract class RDD[T: ClassTag]( @transient private var sc: SparkContext, @transient private var deps: Seq[Dependency[_]] ) extends Serializable

2017-03-07 20:18:13 400

转载 Flume-NG内置计数器(监控)源码级分析

Flume的内置监控怎么整？这个问题有很多人问。目前了解到的信息是可以使用Cloudera Manager、Ganglia有图形的监控工具，以及从浏览器获取json串，或者自定义向其他监控系统汇报信息。那监控的信息是什么呢？就是各个组件的统计信息，比如成功接收的Event数量、成功发送的Event数量，处理的Transaction的数量等等。而且不同的组件有不同的Countor来做统计，目前直到1

2017-03-06 13:48:56 497

转载 spark sql由入门到精通

（一）开始Spark中所有相关功能的入口点是SQLContext类或者它的子类，创建一个SQLContext的所有需要仅仅是一个SparkContext。val sc: SparkContext // An existing SparkContext.val sqlContext = new org.apache.spark.sql.SQLContext(sc

2017-03-05 19:59:55 391

转载 Spark开发语言Scala语言

Spark内核是由Scala语言开发的，因此使用Scala语言开发Spark应用程序是自然而然的事情。如果你对Scala语言还不太熟悉，可以阅读网络教程A Scala Tutorial for Java Programmers或者相关Scala书籍进行学习。本文将介绍3个Scala Spark编程实例，分别是WordCount、TopK和SparkJoin，分别代表了Spark的三种典型应

2017-03-05 19:35:58 1881 1

转载 scala学习指南

序言Scala是Twitter使用的主要应用编程语言之一。很多我们的基础架构都是用Scala写的，我们也有一些大的库支持我们使用。Scala是一门高效并且庞大(large)的语言，经验教会我们在实践中要非常小心。它有什么陷阱？哪些特性我们应该拥抱，哪些应该避开？我们什么时候采用“纯函数式风格”，什么时候应该避免？换句话说：我们发现哪些可以高效的使用这门语言的地方？本指南试图把我们的经

2017-03-05 18:45:05 521

转载 hbase数据删除不释放region解决办法

删除数据的驱动：由于说需要做数据挖掘，不让删除数据，就一直没有删除数据，总共10T产的占用了8-9T了，服务器天天报警，大半夜起来解决问题，真心受不了发火，就算需要做数据挖掘，也不需这样做啊，可以存加工的数据啊，也不会全部把数据存在，还有公司是不允许我们加服务器的抓狂。删除数据过程： hbase删除数据，我也是新手，描述有问题的，希望大神给我指出。

2017-03-05 18:43:01 5123 1

转载 hbase系统入门篇

1-HBase的安装HBase是什么？HBase是Apache Hadoop中的一个子项目，Hbase依托于Hadoop的HDFS作为最基本存储基础单元，通过使用hadoop的DFS工具就可以看到这些这些数据存储文件夹的结构,还可以通过Map/Reduce的框架(算法)对HBase进行操作，如右侧的图所示：HBase在产品中还包含了Jetty，在HBa

2017-03-05 18:30:16 403

转载 spark core组件:RDD、DataFrame和DataSet介绍、场景与比较

spark生态系统中，Spark Core，包括各种Spark的各种核心组件，它们能够对内存和硬盘进行操作，或者调用CPU进行计算。spark core定义了RDD、DataFrame和DataSetspark最初只有RDD，DataFrame在Spark 1.3中被首次发布，DataSet在Spark1.6版本中被加入。 RDD是什么？RDD：Spark的核心概念

2017-03-05 18:23:10 1138

转载 Spark大数据处理之从WordCount看Spark大数据处理的核心机制

大数据处理肯定是分布式的了，那就面临着几个核心问题：可扩展性，负载均衡，容错处理。Spark是如何处理这些问题的呢？接着上一篇的“动手写WordCount”，今天要做的就是透过这个大数据界的HelloWorld来看看Spark隐藏了哪些魔法。请各位看官，带着分布式的问题往下看。分布式架构大数据时代，单机装下PB级的数据，然后在可接受的时间内处理完，不可能，所以一定是分布式的。

2017-03-05 18:13:51 240

转载常见的七种Hadoop和Spark项目案例

项目一：数据整合称之为“企业级数据中心”或“数据湖”，这个想法是你有不同的数据源，你想对它们进行数据分析。这类项目包括从所有来源获得数据源（实时或批处理）并且把它们存储在hadoop中。有时，这是成为一个“数据驱动的公司”的第一步；有时，或许你仅仅需要一份漂亮的报告。“企业级数据中心”通常由HDFS文件系统和HIVE或IMPALA中的表组成。未来，HBase和Phoenix在大数据整合方面

2017-03-05 18:11:44 468

转载 Kafka offset存储方式与获取消费实现

1.概述Kafka版本[0.10.1.1]，已默认将消费的 offset 迁入到了 Kafka 一个名为 __consumer_offsets 的Topic中。其实，早在 0.8.2.2 版本，已支持存入消费的 offset 到Topic中，只是那时候默认是将消费的 offset 存放在 Zookeeper 集群中。那现在，官方默认将消费的offset存储在 Kafka 的Topic中，同

2017-03-05 18:07:58 3576

空空如也

空空如也