分布式数据计算技术
以实战为线索,重点介绍Spark/Storm/Hive/Impala/Tachyon 大数据分布式计算在实际企业中的应用,通过本专栏的学习,让你更轻松掌握大数据计算在实时计算、流式计算、离线计算在企业具体应用
艾文教编程
BAT资深算法专家
展开
-
009redis的事务(transaction)
redis的事务(transaction)基本概念以及原理介绍原创 2015-10-12 18:03:24 · 623 阅读 · 1 评论 -
006 用户行为PV&UV统计数据
mapreduce离线分析加强日志后,然后通过hive或者impala分析数据。本章节主要分析pv和uv数据,利用hive整合hbase,通过hive分析hbase中的数据原创 2015-10-12 17:33:16 · 12120 阅读 · 2 评论 -
105-storm 整合 kafka之保存HBase数据库
通过flume-ng收集的日志,最后通过kafka作为中间件,最后通过storm可以实时消费。为方便后续的原数据分析,通过保持hbase进行备份原创 2015-10-08 23:22:55 · 3392 阅读 · 4 评论 -
104-storm 整合 kafka之保存MySQL数据库
整合Kafka+Storm,消息通过各种方式进入到Kafka消息中间件,比如通过使用Flume来收集的日志数据,然后暂由Kafka中的路由暂存,然后在由实时计算程序Storm做实时分析,这时候我们需要讲Storm中的Spout中读取Kafka中的消息,然后交由具体的Bolt组件分析处理。实际上在 apache-storm-0.9.3这个版本的Storm已经自带了一个集成Kafka的外部插件程序storm-kafka,可以直接使用,通过本章可以学习如何整合原创 2015-10-08 23:13:09 · 7197 阅读 · 2 评论 -
103-flume整合kafka
通过flume-ng收集log4j产生的日志,考虑大数据量、高并发情况以及需要多个消费者消费同一份数据,这里通过整理flume-ng和kafka,把flume-ng收集的日志放入到kafka原创 2015-10-08 22:59:49 · 1555 阅读 · 0 评论 -
102-整合log4j和flume架构
主要介绍flume-ng如何收集日志,通过本章节我们可以学习到通过flume-ng与log4j的整合,可以实时通过flume-ng来log4j产生的日志,其中: flume-ng的agent要部署到每个产生日志的机器原创 2015-10-08 22:50:49 · 1004 阅读 · 0 评论 -
101电商平台高频实时访问架构
对于一个大型网站的电商平台来说,随着业务不断增长,用户规模不断增加。面对大流量、高并发的访问,网站性能问题就成了一个瓶颈,那么如何分析一个网站处理的能力,需要我们通过多方面的指标来分析处理。这些指标一般包括: 首页平均响应时长、搜索商品处理能力、登录鉴权能力、下单处理能力等。通过实时分析各个指标的能力可以为网站的建设者提供优化方案。接下来通过模拟下单生成日志,来实时分析下单处理能力。这些方案具有很强的通用性,只要掌握处理方案的方法,就可以做到应对一切变化.原创 2015-09-25 19:26:08 · 1294 阅读 · 0 评论 -
004 开发mapreduce程序对用户行为日志加强
对于用户行为日志一般处理思路: 通过mapreduce对日志进行增强,然后保持到hdfs上,通过hive分析各个指标原创 2015-09-24 17:42:28 · 1013 阅读 · 0 评论 -
003 利用hadoop+hive离线处理日志-方案分析
利用hadoop+hive离线处理日志,简单描述一些步骤原创 2015-09-24 17:23:07 · 4109 阅读 · 0 评论 -
002中小规模电子商务网站用户行为日志收集方案
对于一个中小型规模的电商商务网站来说,如何收集用户行为日志是一个首先要解决问题。这里采用Nginx来完成原创 2015-09-24 16:49:57 · 3771 阅读 · 1 评论 -
001电商用户行为分析业务整体介绍
更好的为电子商务网站提供运营,需要建设一套用户行为分析的平台。以此来统计用户行为日志,订单数据,更好的服务和支撑运营。就是这样的通用性的平台,思考了好久,整理一下。同各位分享原创 2015-09-24 16:23:36 · 3839 阅读 · 1 评论 -
9.在Tachyon上运行Spark
9.1 Spark与Tachyon兼容性如何你计划在Tachyon上运行Spark,请参考下面Spark和Tachyon之间版本兼容性列表。Spark Version Tachyon Version1.0.x and Below v0.4.11.1.x v0.5.01.2.x v0.5.01.3.x v0.5.01.4.x v0原创 2016-02-18 13:36:21 · 714 阅读 · 0 评论 -
8.在Tachyon运行MapReduce
1.1 使用HDFS做UFS首先要让hadoop正常识别tachyon文件系统,需要做如下工作:1)编辑conf/core-site.xml文件,添加如下内容fs.tachyon.impltachyon.hadoop.TFS 2)向lib目录放入对应的依赖包(在tachyon-0.5.0/client/target目录下找),名称为tachyon-client-0原创 2016-02-18 13:35:24 · 746 阅读 · 0 评论 -
7.Tachyon命令行使用
Tachyon的命令行接口可以让用户通过命令访问FileSystem。Tachyon基本命令format [-s] 格式化Tachyonbootstrap-conf Generate a config file if one doesn't existtfs Comma原创 2016-02-18 13:34:12 · 757 阅读 · 0 评论 -
6.Tachyon文件存储以及读写过程
1.1 Tachyon文件存储方式为了高效地对文件进行管理,Tachyon文件在内存中按块(Block)组织。文件和块信息保存在Master端,每个Worker以块为单位进行存储和管理,一个块可以同时被缓存在不同Worker的内存中。在UFS中,以文件形式对Tachyon文件进行备份。1.2 Tachyon读写过程由于Tachyon文件存储位置的多样性(内存,UFS),Ta原创 2016-02-18 13:32:24 · 973 阅读 · 0 评论 -
5.Tachyon参数配置
1.1 基本配置属性名默认值含义tachyon.home"/mnt/tachyon_default_home"Tachyon的安装目录tachyon.underfs.address$tachyon.home + "/underfs"底层文件系统目录原创 2016-02-18 13:29:44 · 762 阅读 · 0 评论 -
4. Tachyon安装-Tachyon集群模式搭建
tachyon默认支持hadoop-1.0.4版本,如果需要使用更高版本需要重新编译打包。如果使用maven打包,命令如下:mvnclean package -Djava.version=1.7 -Dhadoop.version=2.6.0 -DskipTests 本文采用默认版本进行安装,步骤如下: 1.1.1 Hadoop-1.0.4安装注意:需要实现做好免原创 2016-02-18 13:25:23 · 963 阅读 · 0 评论 -
4. Tachyon安装-Tachyon本地模式搭建
1) 下载$ wget ./downloads/tachyon-0.5.0-bin.tar.gz$ tar xvfz tachyon-0.5.0-bin.tar.gz$ cd tachyon-0.5.02) 配置$ cp conf/tachyon-env.sh.template conf/tachyon-env.shvi tachyon-env.sh 并原创 2016-02-18 13:23:45 · 632 阅读 · 0 评论 -
3.Tachyon系统架构
1.1 Tachyon的整体架构Tachyon整体架构采用Master-Worker模式,运行中的Tachyon系统由一个Master和多个Worker构成。Tachyon Master支持Zookeeper进行容错。 Tachyon有三个主要的组件:Master,Client,Worker。 1) Master节点:主要职责是保存并维护文件系统的元数据信息原创 2016-02-18 13:16:53 · 591 阅读 · 0 评论 -
2.Tachyon实现原理
Tachyon的实现原理,我们可以关注四点:1) Tachyon在内存中只保存一份数据2) 将Spark的容错lineage思想引入存储层3) 通过依赖关系重算进行容4) 用了Linux文件系统Ramfs做存储 Ramfs是什么?Linux有一种基于RAM做存储的文件系统,叫做Ramfs。 它是基于与Linux文件系统缓存原创 2016-02-18 13:12:33 · 668 阅读 · 0 评论 -
1.Tachyon简介
Tachyon是以内存为中心的分布式文件系统,能够为集群计算框架(如:Spark,MapReduce等)提供内存级速度的跨集群文件共享服务。 1.1 Tachyon特征1) Tachyon‘s的原生API类似JAVA的文件API2) 兼容性:Tachyon实现了HDFS接口。故MapReduce和Spark无需任何修改可以运行在Tachyon上。3)原创 2016-02-18 13:11:23 · 712 阅读 · 0 评论 -
Hive-4.hive 的 性能调优
1. 使用EXPLAIN通过EXPLAIN功能,可以帮助我们了解如何将查询转化成MapReduce任务的。 1、使用explain查看hive如何将查询转化成MapReduce任务的1.1 创建表create table onecol(number int)1.2 初始化数据并加载[hadoop@mycluster ~]$ vi onecol 1原创 2016-01-27 11:35:24 · 3443 阅读 · 0 评论 -
Hive-3.hive 的 hql 语句
创建的hql主要包括以下内容(1)表定义,创建表的时候使用create table t(2) 过滤数据,备份表,创建临时表create table t_tmp as select * from t;(3)已经存在表,向表中添加数据load data [local] inpath 'data/a.txt' into table t;(4)已经存在表定义,需要从其他表加载数原创 2016-01-27 11:33:59 · 1944 阅读 · 0 评论 -
Hive-2.HiveQL查询中分析函数
1 RANK()函数返回数据项在分组中的排名,排名相等会在名次中留下空位 2 DENSE_RANK()函数返回数据项在分组中的排名,排名相等会在名次中不会留下空位3 NTILE()函数返回n分片后的值4 ROW_NUMBER()为每条记录返回一个数字5 分析函数案例实战针对分组后,对组内数据进行排序(1)Rank函数返回一个唯一的值,除非遇到相同的数据时原创 2016-01-27 11:31:55 · 2135 阅读 · 0 评论 -
Hive-2.HiveQL查询中抽样查询
当数据集非常大的时候,我们需要找一个子集来加快数据分析。此时我们需要数据采集工具以获得需要的子集。在此可以使用三种方式获得采样数据:random sampling, bucket sampling, block sampling。8.1随机抽样(Random sampling ) 使用RAND()函数和LIMIT关键字来获取样例数据,使用DISTRIBUTE和SORT关键字来保证数据是随机原创 2016-01-27 11:30:10 · 5228 阅读 · 1 评论 -
Hive-2.HiveQL查询中ORDER BY 和SORT BY 语句|包含SORT BY 的DISTRIBUTE BY|CLUSTER BY
1. ORDER BY 和SORT BY 语句order by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。 sort by不是全局排序,其在数据进入reducer前完成排序.因此,如果用sort by进行排序,并且设置mapred.reduce.tasks>1, 则sort原创 2016-01-27 11:28:11 · 2456 阅读 · 0 评论 -
Hive-2.HiveQL查询中JOIN语句
Hive支持常用到的SQL JOIN语句,但是只支持等值连接。4.1 INNER JOIN内连接(INNER JOIN)中,只有进行连接的两个表中都存在与连接标准相匹配的数据才会展示出来。例如: 查询每个部门下的员工列表 查询语句:select t.deptname,e.name from employees e inner join dept t原创 2016-01-27 11:26:21 · 7404 阅读 · 0 评论 -
Hive-2.HiveQL查询中where和group by语句
1. WHERE语句查询英语成绩大于等于70的列表:select name,ceil(salary) as salary,age from employees where score['English']>=70;输出结果:name salary agewangwu1 5500 20wangwu3 8400 20wangwu4 8400 20原创 2016-01-27 11:24:28 · 5228 阅读 · 0 评论 -
Hive-2.HiveQL查询中常用函数
1. SELECT ....FROM 语句1、创建表CREATE EXTERNAL TABLE employees(ID STRING,name STRING,AGE INT,BIRTHDAY DATE,subordinates ARRAY,score MAP,address STRUCT)ROW FORMAT DELIMITEDFI原创 2016-01-27 11:22:31 · 3959 阅读 · 0 评论 -
Hive-1.Hive入门介绍
1.Hive是什么Hive是数据仓库,是SQL解析引擎,查询存储HDFS上数据。 2.Hive 元数据保存的方法以及特点Hive元数据存储metastore中。(1)metastore存储Hive表和HDFS的对应关系l Hive中的数据库对应HDFS中的文件夹l Hive中表对应HDFS中的文件夹l Hive中记录对应HDFS中的数据注意: Hive中的数据文原创 2016-01-27 11:18:49 · 1261 阅读 · 0 评论 -
1008-Hive访问HBase表数据
Hive访问HBase表数据原创 2015-11-25 11:36:10 · 1156 阅读 · 0 评论 -
1007-Hive性能调优
Hive性能调优原创 2015-11-25 11:14:23 · 721 阅读 · 0 评论 -
1006-Hive的UDF操作
Hive的UDF操作原创 2015-11-25 11:08:07 · 578 阅读 · 0 评论 -
2001-使用Hive+MR统计分析网站指标
使用Hive+MR统计分析网站指标原创 2015-11-25 11:02:54 · 4909 阅读 · 0 评论 -
2000-使用Hive的正则解析器RegexSerDe分析Nginx日志
原始日志直接导入hive表,存储的格式不一定是我们要想的格式,通过Hive的正则解析器RegexSerDe分析Nginx日志完成原创 2015-11-25 10:57:38 · 1076 阅读 · 0 评论 -
Impala006-impala 数据处理&impala 和 HBase整合&JDBC方式访问Impala
impala 数据处理、impala 和 HBase整合、JDBC方式访问Impala原创 2015-10-12 16:19:21 · 1548 阅读 · 0 评论 -
Impala005-Impala SQL操作内部表和外部表
Impala操作外部表和内部表。一些基本操作同Hive的命令一样原创 2015-10-12 16:15:46 · 7164 阅读 · 0 评论 -
Impala004-Impala管理
重点介绍Impala的监控、Impala存储和分区、 Impala分区维护原创 2015-10-12 16:14:34 · 919 阅读 · 0 评论 -
Impala003-Impala shell
本章节重点介绍Impala的一些常用的命令,主要是如果Impala如果替代Hive左统计分析原创 2015-10-12 16:02:17 · 2933 阅读 · 0 评论 -
Impala002-Impala架构
重点介绍Impala的架构中涉及的角色Impala StateStore、Impala Catalog Server、Impala Daemon原创 2015-10-12 15:59:57 · 804 阅读 · 0 评论