![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据云计算
h_1_y_m
这个作者很懒,什么都没留下…
展开
-
基于ODPS的MapReduce例子
公司提了一个要求,要基于阿里云的ODPS实现一个简单的数据ETL Demo。基本需求如下:多条身份证,姓名,来源部门信息遵循两条规则, 有权威部门则采用权威部门数据,无权威部门则采用出现次数多权重数据。实现过程如下:1.去阿里云申请accessID, accessKey2.下载SDK开发工具3.下载ODPS Eclipse插件并集成4.仿造WordCount例子实现需求...原创 2016-05-23 13:59:18 · 424 阅读 · 0 评论 -
KYKIN安装
1. Kylin的一些概念No. 关键字 解释1 Kylin 一款基于Hive的开源OLAP工具,我们可以设计Hive表的字段为维度和度量,通过Kylin来构建Cube,Kylin会将Cube结构存储在 HBase 之上,基于Cube我们可以做各种多维分析。参考:https://mp.weixin.qq.com/s/kfFh7I_V5haghV6qUzHtag2 Kylin...原创 2017-09-30 17:40:03 · 292 阅读 · 0 评论 -
Azkaban安装
一.下载https://github.com/azkaban/azkabangit clone https://github.com/azkaban/azkaban.git或wget azkaban.version url二.编译o build Azkaban packages from source, run:./gradlew distTarThe ab...原创 2017-10-10 18:32:16 · 123 阅读 · 0 评论 -
zepplin实战
一句话介绍Zeppelin以笔记(Note)的形式展示的数据可视化工具。一.下载安装启动http://zeppelin.apache.org/download.htmlwget http://mirrors.tuna.tsinghua.edu.cn/apache/zeppelin/zeppelin-0.7.3/zeppelin-0.7.3-bin-all.tgztar ...原创 2017-10-13 16:10:22 · 169 阅读 · 0 评论 -
HBase表导出成HDFS
导出步骤:在old cluster上/opt/cloudera/parcels/CDH/lib/hbase/bin 执行:./hbase org.apache.hadoop.hbase.mapreduce.Export my_user hdfs://new cluster ip:8020/test/my_user 例如:./hbase org.apache.hadoop.hbase.m...原创 2017-10-19 19:40:44 · 279 阅读 · 0 评论 -
Kettle Linux 安装部署
一.安装JDK环境:根据自己的linux系统选择相应的版本,比如我的centos7是x64的,所以我选择jdk-8u74-linux-x64.tar.gz下载下载下来以后,我们将其移到我们创建的一个目录中,存放tar包的目录为/usr/local/src/jdk,然后解压:tar -zxf /usr/local/src/jdk/jdk-7u65-linux-x64.tar.gz编辑 v...原创 2017-02-15 17:20:57 · 392 阅读 · 0 评论 -
linux ssh 相互密码登录
1.修改集群各机器名称vim /etc/sysconfig/networkNETWORKING=yesHOSTNAME=server012.修改hosts,机器名和IP地址映射172.18.203.21 server01172.18.203.22 server02172.18.203.23 server03172.18.203.24 server...原创 2017-02-22 13:40:03 · 100 阅读 · 0 评论 -
Flume+Kafka+Spark Steaming demo
一.准备flume配置a1.sources = r1a1.sinks = k1a1.channels = c1 a1.sources.r1.type = spooldira1.sources.r1.channels = c1a1.sources.r1.spoolDir = /var/log/testa1.sources.r1.fileHeader = true ...原创 2017-11-21 15:21:26 · 174 阅读 · 0 评论 -
Flume+kafka+Spark Steaming demo2
一,flume配置# Name the components on this agenta1.sources = tailsource-1 a1.sinks = remotesink a1.channels = memoryChnanel-1 # Describe/configure the source a1.sources.tailsource-1.type...原创 2017-11-22 13:15:34 · 118 阅读 · 0 评论 -
crontab定时运行MR不行,手动shell可以执行成功问题排查过程
设置了定时任务,但MR任务没有执行。第一步:手动执行shell脚本, 如果有问题,检查相关设置,如source /etc/profile, 绝对路径之类 这里不是重点, 手动可以执行成功第二步: 检查shell脚本文件格式, 设置测试输出,确保crontab任务调度没有问题, 测试hymtest.sh#!/bin/bashDATE=$(date +%Y%m%d:%H:%M:...原创 2017-12-26 15:48:34 · 341 阅读 · 0 评论 -
kettle部署
1.将jmbi sql先上生产环境, 参考附件jmbi.sql2.kettle安装部署选好目标机器,装好jdk1.8 然后登录测试环境192.168.1.142,复制kettle安装文件,job,shell脚本scp -r /d1/usr/kettle root@目标IP:/d1/usr/kettlescp -r /root/.kettle root@目标IP:/root/.k...原创 2017-12-26 16:04:37 · 354 阅读 · 0 评论 -
hadoop环境搭建
192.168.23.231 server1192.168.23.234 server2192.168.23.239 server3http://mirrors.163.com/centos/6/isos/关闭防火墙service iptables stopchkconfig iptables off停闭selinuxvim /etc/sysconf...原创 2017-01-23 17:31:33 · 78 阅读 · 0 评论 -
环境安装
物理机部署分配3台物理机上部署 Zookeeper 3个,Flume 3个,Kafka 3个 (假定3台物理机IP地址分别为: IP1, IP2, IP3)3台物理界上部署 ES 3个, Kibana 1个 (假定3台物理机IP地址分别为: IP4, IP5, IP6)另外,请修改各服务器的文件句柄数限制,比如从默认的 1024 修改为 10240 !!1. Zookeep...原创 2017-01-17 16:26:29 · 220 阅读 · 0 评论 -
阿里云上运行MapReduce例子
接着上次博客记录, 例子虽然可以在本地运行,如果将写好的代码在阿里云上运行。基本步骤如下:1.将写好的代码导出成jar文件,代码里面的字段名用小写,ODPS都转为小写,用大写会报错找不到相应的字段,在后面执行才知道这个问题。 EtlTools.java-->Export--->Jar file-->name-mr.jar 2.从Eclipse workspace拷贝到D:\odp...原创 2016-05-23 18:09:06 · 310 阅读 · 0 评论 -
关于大数据这些工具框架
接触大数据的这两年来,总是被各种琳琅满目的框架工具目不暇接。在这个大数据这个生态圈里,具体的框架工具都有自己的应用场景或不足之处,用来解决特定的问题。技术选型的时候要结合业务特点。没有包治百病,一劳永逸的方案。1.Hadoop,大数据的鼻祖和基础。 解决存储(HDFS)和计算(MapReduce)。数据运行在磁盘上决定适合批处理任务,实时性低的场景。 NameNode和DataNode, ...原创 2016-05-24 14:56:49 · 141 阅读 · 0 评论 -
Redis消息发布订阅
想找到一个消息推送的方案,隐约觉得Pub/Sub是一种解决问题的途径,但没在项目实践中用到。最新在了解学习阿里云,里面有demo。摘录记之。消息的发布与订阅场景介绍ApsaraDB for Redis也提供了与Redis相同的消息发布(pub)与订阅(sub)功能。即一个client发布消息,其他多个client订阅消息。需要注意的是,ApsaraDB for Re...原创 2016-06-03 16:08:26 · 114 阅读 · 0 评论 -
HBase问题
1.java.net.UnknownHostException: unknown host:xxxx异常解决办法windows下开发HBase应用程序,HBase部署在linux环境中,在运行调试时可能会出现无法找到主机,类似异常信息如下:java.net.UnknownHostException: unknown host: jmnb解决办法如下:在C:\WINDOWS\...原创 2016-06-16 17:02:42 · 103 阅读 · 0 评论 -
windows10下运行MR错误
当在windows下运行MR程序时,会报各种错误。现把这次碰到的问题记下来。1. 需要在HADOOP_HOME/bin下安装winutils, 2.winutils.exe双击运行没有报***.dll 缺失的错误,否则要下载DirectX修复工具(http://www.downxia.com/downinfo/21233.html, http://js.downxia.com/down/D...原创 2016-07-05 13:45:10 · 323 阅读 · 0 评论 -
运行Hadoop jar 第三方jar包依赖
将自己编写的MapReduce程序打包成jar后,在运行 hadoop jar 命令时,如果要依赖第三方jar包,提示 ClassNotFoundException ....解决方法:1.新建一个lib文件夹,将需要依赖的第三方jar包放到lib文件夹中;2.将MapReduce程序打包后的jar包(如:jmdata-operatives-mrs-access.jar)用W...原创 2016-08-22 13:47:31 · 884 阅读 · 0 评论 -
Ambari卸载shell
#!/bin/bash# Program:# uninstall ambari automatic# History:# 2014/01/13 - Ivan - 2862099249@qq.com - First releasePATH=/bin:/sbin:/usr/bin:/usr/sbin:/usr/local/bin:/u...原创 2017-03-28 17:28:33 · 187 阅读 · 0 评论 -
HBASE API
package org.jumore.test;import java.io.IOException;import java.util.ArrayList;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfig...原创 2017-04-18 11:01:41 · 122 阅读 · 0 评论 -
Storm demo
public class SentenceSpout extends BaseRichSpout{ private static final long serialVersionUID = 1L; /** * This output collector exposes the API for emitting tuples from...原创 2016-12-19 15:50:02 · 82 阅读 · 0 评论 -
Logstash安装部署配置
为了实现各业务平台日志信息采集到大数据平台hdfs上。之前的定技术栈是 flume->kafka->storm->hdfs. 其中通过storm需要写代码,稳定性,可扩展性,维护性不好。从kafka到hdfs,有专门的日志工具logstash可以解决这个问题. 目前已经在我们的开发环境稳定的运行了一个礼拜(http://192.168.23.31:50070/explore...原创 2017-04-28 10:24:10 · 192 阅读 · 0 评论 -
Canal相关理解
转载:http://www.importnew.com/25189.html概述canal是阿里巴巴旗下的一款开源项目,纯Java开发。基于数据库增量日志解析,提供增量数据订阅&消费,目前主要支持了MySQL(也支持mariaDB)。起源:早期,阿里巴巴B2B公司因为存在杭州和美国双机房部署,存在跨机房同步的业务需求。不过早期的数据库同步业务,主要是基于trigger的方式获取增量...原创 2017-12-29 16:18:37 · 200 阅读 · 0 评论