![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据之组件
文章平均质量分 73
大数据之组件大数据之组件大数据之组件大数据之组件大数据之组件大数据之组件大数据之组件大数据之组件大数据之组件大数据之组件大数据之组件大数据之组件大数据之组件大数据之组件大数据之组件大数据之组件大数据之组件大数据之组件大数据之组件大数据之组件大数据之组件大数据之组件大数据之组件大数据之组件大数据之组件
蔡大远
这个作者很懒,什么都没留下…
展开
-
脚本安装大数据工具
SparkStreaming实时流数据处理案例一、安装Flume二、安装Kafka三、安装Spark四、安装Hbase五、测试的数据六、Flume数据至Kafka七、SparkStreaming消费Kafka数据进行处理八、将结果集导入Hbase注:此篇博客将耗时几天写完,由于需要配置环境及找安装包,此次正好把相互兼容的 安装包版本进行归纳一、安装FlumeFlume安装链接二、安装Kafka三、安装Spark四、安装Hbase五、测试的数据六、Flume数据至Kafka七、Spark原创 2021-02-22 17:47:35 · 160 阅读 · 0 评论 -
Kafka 二:kafka数据清洗(java api)
Kafka 二:数据清洗(java api)生产者消费者数据清洗建maven-quist工程生产者连接 kafka 生产者 ,输入数据,在消费者中查看package kafka.mypro_and_con;import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.ProducerConfig;import org.apache.kafka.clients.原创 2020-05-28 01:16:54 · 788 阅读 · 0 评论 -
Kafka 一:安装(单机),测试
Kafka 一:安装(单机)安装 Zookeeper配置 zoo.cfgzookeeper环境变量启动zookeeper安装 Kafka解压配置 server.properties配置环境变量刷新环境变量启动后台启动创建 topic查看查看 topic 详细情况启动kafaka消费者启动kafaka生产者查看topic消息数量安装 Zookeeper解压,重命名,进conf目录[root@test200 conf]# mv zoo_sample.cfg zoo.cfg配置 zoo.cfgdata原创 2020-05-23 23:05:17 · 246 阅读 · 0 评论 -
Hive 二:窗口函数相关总结
Hive ~之窗口函数总结简介概念数据准备实例聚合函数+overpartition by子句order by子句window子句窗口函数中的序列函数NTILELAG和LEAD函数first_value和last_value扩展:总结:简介本文主要介绍hive中的窗口函数.hive中的窗口函数和sql中的窗口函数相类似,都是用来做一些数据分析类的工作,一般用于olap分析(在线分析处理)。概念我们都知道在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据原创 2020-05-17 18:12:13 · 166 阅读 · 0 评论 -
Zepplin ~之安装
Zepplin ~安装一 下载安装包二 上传并解压三 修改 配置文件conf 文件夹下vi zeppelin-env.sh四 启动zeppelin五 配置hive解释器5.1 环境和变量配置(1)拷贝hive的配置文件hive-site.xml到zeppelin-0.8.1-bin-all/conf下。(2)拷贝jar包5.2 在web界面配置集成hive(1)右上角anonymous --> interpreter --> +Create新建一个叫做hive的集成环境(2)设置properti原创 2020-05-17 18:00:04 · 134 阅读 · 0 评论 -
Hive 一:单机环境搭建
Hive ~之环境搭建1.Hive环境搭建创建hive-site.xml文件将mysql驱动jar包拷贝到lib目录下配置环境变量初始化hive启动hive2.beeline 使用首先启动hiveserver2服务1.Hive环境搭建需要提前将mysql-connector-java-5.1.32.jar导入到hive 的 lib 文件夹下hive的使用,在这里配置mysql,所以要提前安装好MySQL数据库创建hive-site.xml文件[root@test1 conf]# touch hiv原创 2020-05-17 17:50:25 · 264 阅读 · 0 评论 -
Hadoop ~之安装注意事项
Hadoop ~之安装注意事项一:经常格式化导致报错如下hadoop起动后没有datanode的问题没有配置native环境配置时全部写主机名,不要写地址,不然会错Hadoop-在HDFS创建文件报mkdir: Cannot create directory /aa. Name node is in safe mode.hadoop环境报failed on connection exceptionLinux下永久修改主机名jps报process information unavailable的解决办法bas原创 2020-05-17 17:12:35 · 725 阅读 · 0 评论 -
Hadoop ~1:安装(包括集群)与简单的配置
Hadoop ~1:安装与简单的配置一:首先在虚拟机中进行解压二:配置Hadoop ./etc/hadoop目录下的文件配置hadoop-env.sh配置core-site.xml (配置完此步,需要在hadoop260目录下建hadoop2目录)配置hdfs-site.xml配置mapred-site.xml配置yarn-site.xml配置vi ./slaves3.2Hadoop环境变量配置刷新环境变量格式化HDFS (第一次启动要格式化,以后定期删除日志就好)启动hadoop配置native原创 2020-05-17 17:01:32 · 514 阅读 · 0 评论 -
ELK 的JAVA-API
java编写elk程序public class AppTest { //提取到公共变量 TransportClient client = null; @Before public void begin() throws UnknownHostException { //指定ES集群 Settings settings = Settings.builder().put("cluster.name","caies").build();原创 2020-05-15 22:58:10 · 608 阅读 · 0 评论 -
kafka 四:(设计模式)Kafka数据上传至Hbase
kafka 四:(设计模式)Kafka数据上传至Hbasedatamove目录AttendeesHandler类IParseHandler接口UserFriendHandler类workEventAttendeesWorker类IWriter接口KafkaParentWorker类writerHBaseWriter类IWriter接口工程所需的依赖和建立maven工程请参考同栏目的其它博客详细的代码请免积分下载,连接如下:xxxxxxxxxxxxxxxxxxxdatamove目录Attendee原创 2020-06-01 18:39:23 · 402 阅读 · 0 评论 -
配置 Hortonworks
配置 Hortonworks一:导入虚拟电脑二:选择 Hortonworks 文件三:修改内存与安装地址四:设置五:连接Xshell六:在 2222 端口设置ambari 密码七:2222端口连接mysql本文的版本号为2.6.4官网链接下载的百度连接:链接:https://pan.baidu.com/s/1hEpntllwAlYbldGbLIf_Aw提取码:78sb一:导入虚拟电脑打开 VirtualBox ,点击导入虚拟电脑二:选择 Hortonworks 文件三:修改内存与安装地原创 2020-06-01 16:35:37 · 294 阅读 · 0 评论 -
kafka 三:Kafka数据上传至Hbase
kafka 三:数据上传至Hbase0:一:二:四:查看five0:在 hbase 中创建表create_namespace ‘events_db’list_namespacecreate ‘events_db:event_attendees’,‘euot’create ‘events_db:user_friends’,‘of’一:将 kafka 中清洗过的 topic 数据,上传至 hbasepackage hbase;import org.apache.hadoop.con原创 2020-05-28 01:26:15 · 299 阅读 · 0 评论 -
Elasticsarch安装
Elasticsarch安装首先进入opt目录创建bigdata和install目录打开Xftp 5将文件导入opt/install目录下进入install目录解压jdk-8u111-linux-x64.tar.gz进入jdk18 , 配置/etc/profile回到install解压elasticsearch-6.2.2.tar.gz到bigdate配置/bigdate/els622/config目录下的elasticsearch.yml配置/etc/sysctl.conf配置/etc/security/原创 2020-05-15 22:42:43 · 310 阅读 · 0 评论 -
Shell之常用语法总结
运算符逻辑算符 || &&#a=10#b=15#if [[ $a -ge 10 && KaTeX parse error: Expected 'EOF', got '#' at position 13: b -le 15 ]]#̲then#echo "a -ge 10 && KaTeX parse error: Expected 'EOF', got '#' at position 17: … -le 15: true"#̲else#ech原创 2020-05-15 22:00:43 · 327 阅读 · 0 评论 -
Scala-Object屏蔽日志
Scala-Object屏蔽日志一:一:进入虚拟机,用工具 Xftp 找到Spark目录下的文件/opt/bigdata/spark240/conflog4j.properties.template将该文件拖到本地,重命名删除后缀将重命名后的文件拉入到 IDEA 的resource目录中(resource目录为静态的,设置如下)在IDEA 中打开改文件Ctrl+R快捷键将所有的INFO替换为ERROR...原创 2020-05-13 15:12:27 · 382 阅读 · 0 评论 -
zookeeper启动报错:-bash: zkServer.sh: command not found
zkServer.sh: command not found明明已经进入了zookeeper的安装目录bin下了,执行zkServer.sh start 没有这个命令?有这个命令,但启动不了我的两种解决方法:(1)一种是到zookeeper的安装目录bin下,将命令换成 ./zkServer.sh start ;(2)一种是配置环境变量:vim /etc/profile ,添加: export ZOO_HOME=/usr/local/zookeeper-3.4.6 export PATH原创 2020-05-10 01:56:31 · 2330 阅读 · 0 评论 -
执行hadoop jar命令时报Not a valid JAR
hadoop jar $HADOOP_HOME/share/hadoop/common/hadoop-lzo.jar \com.hadoop.compression.lzo.LzoIndexer /user/hive/warehouse/access_lzo图中的 $HADOOP_HOME/*** 表示 hadoop260 的路径,后面 /share/*** 不是全包路径如果不写 $HADOOP_HOME/ ,就要写全路径(如下)[root@caicai share]# pwd (hadoop2原创 2020-05-09 23:49:40 · 3124 阅读 · 0 评论 -
HBase 二: 常用语法总结
Hbase常用语法总结hbase shell获取帮助获取命令的详细信息创建一张名为Student的表,包含基本信息(baseInfo)、学校信息(schoolInfo)两个列族禁用表检查表是否被禁用启用表检查表是否被启用删除表前需要先禁用表删除表获取指定行中所有列的数据信息获取指定行中指定列族下所有列的数据信息获取指定行中指定列的数据信息删除指定行删除指定行中指定列的数据获取指定行中所有列的数据信...原创 2020-04-28 14:25:59 · 922 阅读 · 0 评论 -
HBase 一: 定义,安装
HBASE定义,安装什么是HBASEHBase简介关系型数据库 和 非关系型数据库的典型代表HBase 这个 NoSQL 数据库的要点结构化、半结构化和非结构化HBase 中的表特点HBase表结构逻辑视图名词概念Rowkey的概念Column的概念ColumnFamily的概念ColumnFamily的概念单元格(Cell)HBASE安装hbase-env.shhbase-site.xml配置h...原创 2020-04-28 14:25:46 · 190 阅读 · 0 评论 -
Scala (一)~ Scala简介及开发环境配置
Scala (一)~ Scala简介及开发环境配置一:Scala 简介1.1 概念1.2 特点1. Scala是面向对象的2. Scala是函数式的1.3 Scala的优点1. 与Java的兼容2. 精简的语法3. 高级语言的特性4. 静态类型二、配置IDEA开发环境2.1 前置条件2.2 IDEA安装Scala插件1.方式一:手动安装2.方式二:自动安装参考链接:https://www.cnb...原创 2020-04-28 14:23:28 · 269 阅读 · 0 评论 -
大数据基本集群搭建
Hadoop :之集群搭建搭建虚拟机设置免密配置 jdk180设置Hadoop集群配置配置主节点的 Hadoop 环境进入/opt/bigdata/hadoop260/etc/hadoop配置 hadoop-env.sh配置 mapred-env.sh配置 yarn-env.sh配置 core-site.xml (配置完此步,需要在hadoop260目录下建hadoop2目录)配置hdfs-site.xml配置mapred-site.xml配置yarn-site.xml配置vi ./slavesHadoop原创 2020-06-03 19:13:53 · 836 阅读 · 0 评论 -
数据仓库、数据湖、数据中台
数据仓库、数据湖、数据中台前言一:数据仓库1.1 数据仓库基本定义1.2 数据仓库系统作用和定位1.3 数据仓库能提供什么1.4 数据仓库系统构成二 数据湖2.1 维基百科对数据湖的定义2.2 数据湖能给企业带来多种能力2.3 数据仓库与数据湖差异三:数据中台3.1 产生的背景3.2 数据中台建设是数字化转型的关键支撑3.3 数据中台定义及处理架构3.4 数据中台带来价值四:传统数据仓库与数据中台的差一点结论前言随着大数据技术的不断更新和迭代,数据管理工具得到了飞速的发展,相关概念如雨后春笋一般应运而生转载 2020-06-02 21:30:34 · 1612 阅读 · 0 评论 -
数据湖简析
数据湖背景一:什么是数据湖数据湖与企业的关系二:数据湖如何帮助企业数据湖的优点数据湖能从以下方面帮助到企业:三:数据湖是如何工作的四:数据湖与数据仓库的区别五:数据湖的构建方法背景数据湖概念的诞生,源自企业面临的一些挑战,如数据应该以何种方式处理和存储。最开始,企业对种类庞杂的应用程序的管理都经历了一个比较自然的演化周期。最开始的时候,每个应用程序会产生、存储大量数据,而这些数据并不能被其他应用程序使用,这种状况导致数据孤岛的产生。随后数据集市应运而生,应用程序产生的数据存储在一个集中式的数据仓库中,原创 2020-06-02 21:00:16 · 337 阅读 · 0 评论 -
MongoDB 一:简介及常用的命令
简介及常用的命令关于 MongoDB 请详见 菜鸟教程,那里的全面 链接:菜鸟教程原创 2020-06-11 14:58:37 · 92 阅读 · 0 评论 -
MongoDB 三:使用 java-api进行简单的增查改删
使用 java-api进行简单的增查改删新建 Maven 工程添加依赖代码实现新建 Maven 工程本文使用的时 IDAEA 来进行编程建立的工程是 maven-quickstart添加依赖 <dependency> <groupId>org.mongodb</groupId> <artifactId>mongo-java-driver</artifactId> <version>3.2.2原创 2020-06-11 14:49:00 · 170 阅读 · 0 评论 -
MongoDB 二:安装,登陆及简单用户操作
安装及简单的增删改查下载简单的安装解压至指定文件夹配置环境变量创建数据库目录启动MongoDb web 用户界面MongoDB 设置账号和密码1.开启认证2.创建管理员用户3.认证登录4.MongoDB role 类型5.添加数据库用户6.查看系统用户7.删除用户下载curl -O https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-3.0.6.tgz简单的安装解压至指定文件夹tar -zxvf mongodb-linux-x86_64-3原创 2020-06-11 14:36:09 · 302 阅读 · 0 评论 -
高可用hadoop_yarn,flume集群搭建
高可用hadoop_yarn集群搭建一:搭建虚拟机1.1 设置免密二:配置 jdk180三:安装 Zookeeper (集群用) 4.1 创建 zkData4.2 在zkData中创建 myid文件 给定数字4.3 配置 zoo.cfg4.4 利用 xrsync 发送 /opt/bigdata/zk345/4.5 修改 /opt/bigdata/zk345/zkData/myid4.6 配置环境变量4.4 利用 xrsync 发送 /etc/profile.d/env.sh4.5 通过脚本在 madter原创 2020-06-08 16:40:02 · 394 阅读 · 0 评论 -
Kafka目前所用依赖
Kafka目前所用依赖还会跟新,每条依赖的作用会跟新<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.11</version> <scope>test</scope> </dep原创 2020-06-18 23:28:46 · 4468 阅读 · 0 评论 -
Kafka 五:Kafka数据上传至MongoDB
Kafka 五:Kafka数据上传至MongoDB安装MongoDB要导入的依赖见同栏目的博客JAVA代码如下安装MongoDB此处连接创建的用户名及密码设置的均为test,为以下的kafka的数据传入MongoDB提供条件点击此处去看MongoDB的安装及用户的创建认证的使用要导入的依赖见同栏目的博客JAVA代码如下此处为一个main方法写的,到公司都是用接口写的,以下仅供练习,接口的代码会在其它的博客进行展示import com.mongodb.MongoClient;import co原创 2020-06-18 23:14:57 · 1223 阅读 · 0 评论 -
高可用集群之~ 四:flume NG
高可用集群之~ 四:flume NGagent 配置如下(01,02,03配置一样)Collector1 (04)配置如下Collector2 (05)配置如下flume集群启动测试本博客配置五个节点的 flume 集群01,02,03 agents04,05 collector打开官网http://archive.cloudera.com/cdh5/cdh/5/进入conf目录配置flume-env.sh添加 JAVA_HOMEexport JAVA_HOME=/opt/bigdata原创 2020-06-11 16:38:50 · 129 阅读 · 0 评论 -
高可用集群之~ 三:hadoop
高可用集群之~ 三:hadoop3.1 配置主节点的 Hadoop 环境3.1.1 进入/opt/bigdata/hadoop260/etc/hadoop 与普通的集群相比,hadoop-yarn高可用集群配置的不同之处在于配置core-site.xml , hdfs-site.xml , yarn-site.xml3.1.2配置 hadoop-env.sh3.1.3 配置 mapred-env.sh3.1.4 配置 yarn-env.sh3.1.5 配置 core-site.xml (配置完此步,需要在原创 2020-06-11 15:29:34 · 170 阅读 · 0 评论 -
高可用集群之~ 一:JDK180
高可用集群之~ 一:JDK1802.1 解压完直接配置环境变量即可在profile.d下创建env.sh[root@vmware jdk18]# vi /etc/profile.d/env.sh2.2 写入配置如下export JAVA_HOME=/opt/bigdata/jdk18export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarexport PATH=$PATH:$JAVA_HOME/bin2.3 刷新p原创 2020-06-11 15:23:50 · 187 阅读 · 0 评论 -
高可用集群之~ 二:Zookeeper
高可用集群之~ 一:Zookeeper 4.1 创建 zkData4.2 在zkData中创建 myid文件 给定数字4.3 配置 zoo.cfg4.4 利用 xrsync 发送 /opt/bigdata/zk345/4.5 修改 /opt/bigdata/zk345/zkData/myid4.6 配置环境变量4.4 利用 xrsync 发送 /etc/profile.d/env.sh4.5 通过脚本在 madter 开启集群zookeeper注意:此处的Zookeeper安装与Hbase和Kafka中的原创 2020-06-11 15:19:53 · 145 阅读 · 0 评论 -
高可用集群之~ 五:kafka
高可用集群之~ 五:kafka1 创建/opt/bigdata/kafka211/logs2 配置 server.properties3 通过 xrsync 发送至其它的节点机器4 修改 server.properties5 配置环境变量6 利用 xrsync 发送 /etc/profile.d/env.sh7 启动 kafka8 通过脚本在 master 开启集群 kafka1 创建/opt/bigdata/kafka211/logs[root@c1 kafka211]# mkdir logs[r原创 2020-06-11 15:12:48 · 122 阅读 · 0 评论 -
Oozie安装及使用
Oozie安装及使用部署 Hadoop(CDH 版本的)1.修改 Hadoop 配置重启 Hadoop 集群部署 Oozie在 Mysql 中创建 Oozie 的数据库初始化 OozieOozie 的启动与关闭访问 Oozie 的 Web 页面部署 Hadoop(CDH 版本的)1.修改 Hadoop 配置core-site.xml<!-- Oozie Server 的 Hostname --><property><name>hadoop.proxyuser.原创 2020-07-06 22:36:39 · 197 阅读 · 0 评论 -
Zookeeper常用命令
Zookeeper常用命令zkCli:连接zk的命令help:输出zk支持的所有命令。四字母命令注:ZooKeeper的客户端包括Java版本和C语言版本。zkCli:连接zk的命令bin/zkCli.sh -server ip:port执行此命令,客户端成功连接上zk,会有类似以下的输出,其中,包括“Welcome to ZooKeeper!”的欢迎语,以及其他一些连接的信息等。lihaodeMacBook-Pro:bin lihao$ ./zkCli.sh -server 127.0.0.1原创 2020-07-03 12:02:29 · 411 阅读 · 0 评论 -
Hbase 三:数据传输至hive
hbase数据传输至hive表空间及表名如下:查看hbase中的族及字段一:方法一表空间及表名如下:查看hbase中的族及字段一:方法一在hive中建表如下:设置参数:-- set runtime parametersSET hive.exec.dynamic.partition.mode=nonstrict;SET hive.optimize.sort.dynamic.partition=true;SET hive.auto.convert.join=false;创建表空间--原创 2020-06-22 19:52:39 · 259 阅读 · 0 评论 -
Hive ~ 自定义函数
Hive ~ 自定义函数一:介绍二:UDF2.1 介绍2.2 继承UDF实现2.3 继承GenericUDF实现三:UDTF3.1 介绍3.2 代码示例四:UDAF4.1 介绍4.2 Mode4.3 实现代码分析4.4 代码示例五:注意点一:介绍Hive 自定义函数包括三种 UDF、UDAF、UDTFUDF:一进一出UDAF:聚集函数,多进一出。Count/max/minUDTF:一进多出,如lateral view explore使用方式 :在HIVE会话中add 自定义函数的jar文件,然原创 2020-12-29 16:19:34 · 289 阅读 · 0 评论 -
Canal~1:canal原理
canal原理1 什么是 canal2 使用场景3 canal 的工作原理4 MySQL 的 binlog(1) 什么是 binlog(2) binlog 的开启(3) binlog 的分类设置1 什么是 canal阿里巴巴 B2B 公司,因为业务的特性,卖家主要集中在国内,买家主要集中在国外,所以衍生出了同步杭州和美国异地机房的需求,从 2010 年开始,阿里系公司开始逐步的尝试基于数据库的日志解析,获取增量变更进行同步,由此衍生出了增量订阅&消费的业务。canal 是用 java 开发原创 2021-03-10 10:53:15 · 422 阅读 · 0 评论 -
Canal~2:安装canal
安装canal1、下载地址2、配置mysql3、安装解压修改配置路径:/opt/bigdata/canal1.1.5/conf/canal.properties路径:/opt/bigdata/canal1.1.5/conf/example/instance.properties4、简单使用1、下载地址https://github.com/alibaba/canal/releases2、配置mysql注意:此处mysql版本是5.7,而且为了方便是在docker中安装的,所以路径可能与直接在linux原创 2021-03-10 10:38:17 · 154 阅读 · 1 评论