大数据
大数据相关技术
大数据流浪法师
个人兴趣领域:大数据、人工智能、游戏Fix技术
展开
-
Kettle案例 CSV转为Excel
Kettle案例(kettle version8.2)需求:把数据从CSV文件(user.csv)抽取到Excel文件user.csv在这里:链接:https://pan.baidu.com/s/1Dg9DKIp9kC6qBzMGU9lrTg 提取码:n1agidnameagegenderprovincecityregionphonebirthdayhobby注册时间392456197008193000张三200北京市昌平区回龙观18589原创 2020-07-28 08:34:28 · 1092 阅读 · 0 评论 -
Kettle 读取MySQL数据
1,你得有个用来连接MySQL的jar包2,把它放在kettle的lib目录下3,找到表输入4,新建一个5,填参数,然后测试6,成功了7,点击获取SQL查询语句,就可以查看表了8,输入查询语句9,点击预览可以预览数据最后点确定,从MySQL读取数据就完成了,想输出到哪里自己指定吧...原创 2020-04-27 08:29:47 · 890 阅读 · 0 评论 -
最简单的Kettle安装过程,一看就会!
下载https://sourceforge.net/projects/pentaho/解压,运行spoon.bat出现界面就可以使用了原创 2020-04-27 08:08:11 · 291 阅读 · 1 评论 -
数仓demo-点击流 笔记
大数据数仓项目-点击流分析用户行为日志日志数据格式日志数据内容样例f5dd685d-6b83-4e7d-8c37-df8797812075 222.68.172.190 - - 2018-11-01 14:34:57 "GET /images/my.jpg HTTP/1.1" 200 19939 "http://www.angularjs.cn/A00n" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chr原创 2020-07-28 18:35:16 · 395 阅读 · 0 评论 -
Hadoop Yarn HA 概念
Hadoop Yarn HAYarn作为资源管理系统,是上层计算框架(如MapReduce,Spark)的基础。在Hadoop 2.4.0版本之前,Yarn存在单点故障(即ResourceManager存在单点故障),一旦发生故障,恢复时间较长,且会导致正在运行的Application丢失,影响范围较大。从Hadoop 2.4.0版本开始,Yarn实现了ResourceManager HA,...原创 2020-03-22 10:07:28 · 311 阅读 · 0 评论 -
Hadoop Yarn 配置文件fair-scheduler.xml含义
Yarn 配置文件fair-scheduler.xml含义例如:<?xml version="1.0"?><allocations><!-- users max running apps --><userMaxAppsDefault>30</userMaxAppsDefault><!-- 定义队列 -->&l...原创 2020-03-22 09:48:21 · 1362 阅读 · 0 评论 -
Hadoop Yarn 多用户资源隔离
在一个公司内部的Hadoop Yarn集群,肯定会被多个业务、多个用户同时使用,共享Yarn的资源,如果不做资源的管理与规划,那么整个Yarn的资源很容易被某一个用户提交的Application占满,其它任务只能等待,这种当然很不合理,我们希望每个业务都有属于自己的特定资源来运行MapReduce任务,Hadoop中提供的公平调度器–Fair Scheduler,就可以满足这种需求。Fair S...原创 2020-03-17 14:59:04 · 1064 阅读 · 3 评论 -
Hadoop Yarn Scheduler 调度器
Yarn 调度器Scheduler理想情况下,应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,Yarn提供了多种调度器和可配置的策略供我们选择。在Ya...原创 2020-03-16 17:50:29 · 203 阅读 · 0 评论 -
Hadoop Yarn 运行流程
Yarn工作流程1、client向RM提交应用程序,其中包括启动该应用的ApplicationMaster的必须信息,例如ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。2、ResourceManager启动一个container用于运行ApplicationMaster。3、启动中的ApplicationMaster向ResourceMa...原创 2020-03-16 17:41:24 · 310 阅读 · 0 评论 -
Hadoop Yarn 基本架构
Hadoop Yarn 基本架构YARN是一个资源管理、任务调度的框架,主要包含三大模块:ResourceManager(RM)NodeManager(NM)ApplicationMaster(APPM)ResourceManager(RM)ResourceManager负责所有资源的监控、分配和管理,一个集群只有一个NodeManager(NM)NodeManager负责每...原创 2020-03-15 13:09:14 · 248 阅读 · 0 评论 -
Hadoop的Yarn是什么?
Hadoop Yarn 是什么?Apache Hadoop YARN (Yet Another Resource Negotiator)Yarn 是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度。如上图所示,MapReduce、Tez、HBase、Storm、Spark等等高层计算框架都是建立在YARN的基础上的。YARN的好...原创 2020-03-15 12:39:17 · 2623 阅读 · 0 评论 -
Hadoop Yarn 开启jobHistory
hadoop01修改mapred-site.xmlhadoop01服务器修改mapred-site.xml,添加以下配置cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoopvim mapred-site.xml <property> <name>mapreduce.jobhistory.address<...原创 2019-11-01 10:09:35 · 1137 阅读 · 0 评论 -
Sqoop官方文档学习笔记02 Sqoop Tools
6. Sqoop Tools6.1. Using Command Aliases6.2. Controlling the Hadoop Installation6.3. Using Generic and Specific Arguments6.4. Using Options Files to Pass Arguments6.5. Using ToolsSqoop is a collection of related tools. To use Sqoop, you specify the t转载 2020-07-23 08:03:35 · 453 阅读 · 0 评论 -
Sqoop官方文档学习笔记01 Sqoop基本概念及介绍
1. IntroductionSqoop is a tool designed to transfer data between Hadoop and relational databases or mainframes(大型主机). You can use Sqoop to import data from a relational database management system (RDBMS) such as MySQL or Oracle or a mainframe into the Had转载 2020-07-22 11:13:40 · 345 阅读 · 0 评论 -
Sqoop 从MySQL导入数据到HBase的命令参考
使用SQOOP将MySQL表的数据导入到HBase表中,指定表的名称、列簇及RowKey范例如下所示:/export/servers/sqoop/bin/sqoop import \-D sqoop.hbase.add.row.key=true \--connect jdbc:mysql://bd001:3306/tags_dat2 \--username root \--password 123456 \--table tbl_users \--hbase-create-table \-原创 2020-06-01 14:44:25 · 1246 阅读 · 0 评论 -
Apache Sqoop job 作业
job 语法$ sqoop job (generic-args) (job-args)[-- [subtool-name] (subtool-args)]$ sqoop-job (generic-args) (job-args)[-- [subtool-name] (subtool-args)]创建job创建一个名为testjob,这可以从RDBMS表的数据导入到HDFS作业。下面的...原创 2019-12-09 09:04:02 · 209 阅读 · 0 评论 -
Apache Sqoop 数据导出
Sqoop数据导出将数据从Hadoop生态体系导出到RDBMS数据库前,目标表必须存在于目标数据库中。export有三种模式:默认操作是从将文件中的数据使用INSERT语句插入到表中。更新模式:Sqoop将生成UPDATE替换数据库中现有记录的语句。调用模式:Sqoop将为每条记录创建一个存储过程调用。以下是export命令语法:$ sqoop export (generic-arg...原创 2019-12-05 22:13:56 · 93 阅读 · 0 评论 -
Apache Sqoop 数据导入
数据链接:https://pan.baidu.com/s/17DgifY7j-iLsGQW91N_zJw提取码:psrd步骤“导入工具”导入单个表从RDBMS到HDFS。表中的每一行被视为HDFS的记录。所有记录都存储为文本文件的文本数据下面的语法用于将数据导入HDFS。$ sqoop import (generic-args) (import-args)Sqoop测试表数据在m...原创 2019-12-02 09:37:31 · 406 阅读 · 0 评论 -
Apache Sqoop的安装
Sqoop1.4.7安装官网地址https://sqoop.apache.org/下载地址https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.7/安装sqoop的前提是已经具备java和hadoop的环境。1,上传并解压2,配置文件修改:cd $SQOOP_HOME/confmv sqoop-env-template.sh ...原创 2019-11-29 16:28:09 · 130 阅读 · 0 评论 -
Apache Sqoop是什么
Sqoop介绍Apache Sqoop是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具,Apache软件基金会提供。Sqoop工作机制是将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。Hadoop生态系统包括:HDFS、Hive、Hbase等RDBMS体系包括:Mysql、O...原创 2019-11-29 16:28:42 · 309 阅读 · 0 评论 -
Apache Phoenix 索引index
在海量数据背景下,查询数据快速返回是典型的应用场景。在phoenix数据表基础之上创建索引,能够大幅提高数据的查询效率。Phoenix支持的索引有三个类型,分别是覆盖索引、全局索引、本地索引。覆盖索引Covered Index覆盖索引要求查询语句中的条件字段、查询字段都必须创建过索引,否则就会触发“全局扫描”(full table scan)创建语法:create index cov...原创 2020-01-10 08:50:46 · 838 阅读 · 0 评论 -
Apache Phoenix 常用命令
Apache Phoenix 常用命令创建phoenix表create table if not exists testtable(A bigint not null,B double, C varchar(200),D varchar(200) CONSTRAINT testtable PRIMARY KEY(A));查看表结构!desc testtable;删...原创 2020-01-10 08:33:03 · 347 阅读 · 0 评论 -
Apache Phoenix 4种使用方式
Phoenix使用文章目录Phoenix使用(1)批处理方式(2) 命令行方式(3): GUI方式Phoenix可以有4种方式调用:批处理方式命令行方式GUI方式JDBC调用方式(1)批处理方式A: 创建user_phoenix.sql文件内容如下CREATE TABLE IF NOT EXISTS user_phoenix ( state CHAR(2) NOT NUL...原创 2020-01-10 08:28:46 · 1636 阅读 · 0 评论 -
Apache Phoenix 安装
Apache Phoenix的安装1 、提前安装好ZK集群、hadoop集群、Hbase集群2、从对应的地址下载:http://mirrors.cnnic.cn/apache/phoenix/这里我们使用的是:apache-phoenix-4.14.0-cdh5.14.2-bin.tar.gz3、上传、解压将对应的安装包上传到对应的Hbase集群其中一个服务器的/export/soft...原创 2020-01-10 08:17:02 · 234 阅读 · 0 评论 -
Apache Phoenix 概念
什么是PhoenixPhoenix是结果数据库phoenix,中文译为“凤凰”,很美的名字。Phoenix是由saleforce.com开源的一个项目,后又捐给了Apache基金会。它相当于一个Java中间件,提供jdbc连接,操作hbase数据表。Phoenix是一个HBase的开源SQL引擎。你可以使用标准的JDBC API代替HBase客户端API来创建表,插入数据,查询HBase...原创 2020-01-10 08:12:00 · 734 阅读 · 0 评论 -
Apache Flume 实现过滤功能
A、B两台日志服务机器实时生产日志主要类型为access.log、nginx.log、web.log现在要求把A、B 机器中的access.log、nginx.log、web.log 采集汇总到C机器上然后统一收集到hdfs中,并且在hdfs中输出的目录指定为:/source/logs/access/20180101/**/source/logs/nginx/20180101/**/sou...原创 2019-12-05 17:09:09 · 383 阅读 · 0 评论 -
Apache Flume 负载均衡 load balancer
负载均衡负载均衡是用于解决一台机器(一个进程)无法解决所有请求而产生的一种算法。Load balancing Sink Processor 能够实现 load balance 功能。如下图Agent1 是一个路由节点,负责将 Channel 暂存的 Event 均衡到对应的多个 Sink组件上,而每个 Sink 组件分别连接到一个独立的 Agent 上,示例配置,如下所示:在此处通过三台...原创 2019-12-05 16:34:52 · 227 阅读 · 0 评论 -
Apache Flume failover高可用性
在完成单点的Flume NG搭建后,下面搭建一个高可用的Flume NG集群,架构图如下所示:图中,可以看出,Flume的存储可以支持多种,这里只列举了HDFS和Kafka(如:存储最新的一周日志,并给Storm系统提供实时日志流)。角色分配Flume的Agent和Collector分布如下表所示:名称HOST角色Agent1hadoop01Web Serve...原创 2019-12-05 16:11:07 · 233 阅读 · 0 评论 -
Apache Flume 两个Agent合作
第一个agent负责收集文件当中的数据,通过网络发送到第二个agent当中去第二个agent负责接收第一个agent发送的数据,并将数据保存到hdfs上面去第一步:hadoop02节点安装flumescp -r apache-flume-1.8.0-bin/ hadoop02:$PWD第二步:hadoop01开发flume配置文件cd /export/servers/apache-fl...原创 2019-12-05 15:35:44 · 153 阅读 · 0 评论 -
Apache Flume 采集目录和文件到HDFS
1.采集目录到HDFS采集需求:服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去根据需求,首先定义以下3大要素采集源,即source——监控文件目录 : spooldirsource和sink之间的传递通道——channel,可用file channel 也可以用内存channel下沉目标,即sink——HDFS文件系统 : hdfs s...原创 2019-12-05 08:03:41 · 522 阅读 · 0 评论 -
Apache Flume 安装
Flume安装上传安装包到数据源所在节点上然后解压 tar -zxvf apache-flume-1.8.0-bin.tar.gz然后进入flume的目录,修改conf下的flume-env.sh,在里面配置JAVA_HOME先用一个最简单的例子来测试一下程序环境是否正常1、先在flume的conf目录下新建一个文件vi netcat-logger.conf# 定义这个agen...原创 2019-12-05 07:52:07 · 250 阅读 · 0 评论 -
Apache Flume 概述
Apache Flume概述Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的软件。Flume的核心是把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功,在送到目的地(sink)之前,会先缓存数据(channel),待数据真正到达目的地(sink)后,flume在删除自己缓存的数据。F...原创 2019-12-04 21:17:03 · 240 阅读 · 0 评论 -
Dleta Lake ScalaAPI DeltaTable对象的基本操作 删除、更新、融合更新
DeltaTable的删除更新融合更新原创 2020-04-21 10:43:58 · 1510 阅读 · 0 评论 -
Delta Lake ScalaAPI 3个基本操作 存储、读取、更新
存储为Delta格式数据读取Delta格式数据替换Delta的数据原创 2020-04-21 10:06:19 · 460 阅读 · 0 评论 -
Delta Lake 安装
Delta Lake 安装第一步:下载并安装spark2.4.5版本https://mirror.bit.edu.cn/apache/spark/spark-2.4.5/spark-2.4.5-bin-hadoop2.7.tgz这里我用于测试,随便选了一个版本,你可以去官网选择你自己的版本。第二步:下载Delta Lake 0.5版本Delta Lake 居然没有bin的那种,它居然只有...原创 2020-04-20 11:26:53 · 2423 阅读 · 0 评论 -
DeltaLake 概念
Delta Lake 概念Delta Lake 是一个开源的存储层。(类似的存储层还有Hadoop HDFS,Azure Data Lake Storage,Amazon S3等。)它可以为你的Data Lake带来可靠性。Delta Lake提供ACID事务,可伸缩的元数据处理,并统一流和批数据处理。Delta Lake在你现有的Data Lake之上运行,并且与Apache Spar...原创 2020-04-17 18:21:52 · 680 阅读 · 0 评论 -
Kylin Cube调优
文章目录kylin如何确定指标和维度?SQL和Cube之间的关系??为什么极大的提高了效率?Kylin的工作原理N个维度,随机组合可能出现的组合方式有多少种???技术架构理解Cube、Cuboid与Segment的关系全量和增量的区别管理Cube碎片(Segment)使用JDBC连接操作Kylinkylin如何确定指标和维度?按照订单渠道名称统计订单总额/总数量哪个是指标??总额/总数量哪个是维度??渠道selectt2.channelid,t2.channelname,sum(t1.pri原创 2020-07-28 20:24:49 · 481 阅读 · 0 评论 -
Apache Kylin 安装
依赖环境Apache hbase-1.1.1-bin.tar.gzspark-2.2.0-bin-2.6.0-cdh5.14.0.tgzapache-kylin-2.6.3-bin-hbase1x.tar.gz注意:kylin-2.6.3-bin-hbase1x所依赖的hbase为1.1.1版本要求hbase的hbase.zookeeper.quorum值必须只能是host1,host2,…。不允许出现host:2181,…安装kylin-2.6.3-bin-hbase1x## 解压原创 2020-05-19 08:25:52 · 374 阅读 · 0 评论 -
Apache Hue 安装
上传解压安装包http://archive.cloudera.com/cdh5/cdh/5/hue-3.9.0-cdh5.14.0.tar.gz编译初始化工作联网安装各种必须的依赖包yum install -y asciidoc cyrus-sasl-devel cyrus-sasl-gssapi cyrus-sasl-plain gcc gcc-c++ krb5-devel libffi...原创 2019-12-06 17:47:57 · 718 阅读 · 0 评论 -
Kafka 知识点(一)
Kafka知识点总结原创 2020-03-23 19:19:25 · 299 阅读 · 0 评论