Hadoop实战学习
文章平均质量分 67
Hadoop实战操作学习,欢迎共同学习成长
liuyunshengsir
全栈工程师
展开
-
flink-1.17.2的单节点部署
Apache Flink 是一个开源的流处理和批处理框架,用于大数据处理和分析。它旨在以实时和批处理模式高效处理大量数据。Flink 支持事件时间处理、精确一次语义、有状态计算等关键功能。总体而言,Apache Flink 是构建实时和批处理数据处理应用程序的强大而灵活的框架,适用于大数据领域的各种用例。原创 2023-12-12 22:45:00 · 1384 阅读 · 0 评论 -
基于 Flink CDC 构建 MySQL 的 Streaming ETL to MySQL
CDC 的全称是 Change Data Capture ,在广义的概念上,只要是能捕获数据变更的技术,我们都可以称之为 CDC。目前通常描述的 CDC 技术主要面向数据库的变更,是一种用于捕获数据库中数据变更的技术。CDC 技术的应用场景非常广泛:• 数据同步:用于备份,容灾;• 数据分发:一个数据源分发给多个下游系统;• 数据采集:面向数据仓库 / 数据湖的 ETL 数据集成,是非常重要的数据源。原创 2023-12-07 22:30:00 · 1481 阅读 · 2 评论 -
hadoop3.3.1 版本安装部署及常见问题
sh /home/hadoop/hadoop-3.3.1/sbin/start-all.sh修改启动用户vim /home/lys/hdp/hadoop-3.3.1/etc/hadoop/hadoop-env.shexport HDFS_NAMENODE_USER=rootexport HDFS_DATANODE_USER=rootexport HDFS_SECONDARYNAMENODE_USER=rootexport YARN_RESOURCEMANAGER_USER=rootexpo.原创 2021-12-20 17:17:50 · 851 阅读 · 0 评论 -
spark-2.2.2的安装部署
1.编写DockerfileFROM centos6.5:v1LABEL author.email="578888218@qq.com" #jdk#增加jdkADD jdk-8u171-linux-x64.tar.gz /etc/java/jdkRUN ln -s /etc/java/jdk/jdk1.8.0_171 /etc/java/jdk/jdk1.8#安装环境变...原创 2018-12-14 19:02:08 · 521 阅读 · 0 评论 -
安装pyspark kernel
编辑mkdir ~/.ipython/kernels/pysparkvim ~/.ipython/kernels/pyspark/kernel.jsonkernel.json 内容{ "display_name": "pySpark", "language": "python", "argv": [ "/var/local/anaconda2/bin/python", "...原创 2019-05-21 20:31:16 · 506 阅读 · 0 评论 -
rabbitmq的部署与java操作
1.docker部署rabbitmqdocker pull rabbitmq:3.7.7-managementdocker run -d --name rabbitmq3.7.7 -p 5672:5672 -p 15672:15672 --hostname myRabbit -e RABBITMQ_DEFAULT_VHOST=my_vhost -e RABBITMQ_DEFAULT_USER=admin -e RABBITMQ_DEFAULT_PASS=admin rabbitmq:3.7.7-ma原创 2021-02-04 17:12:50 · 225 阅读 · 0 评论 -
3.HDFS 常用的java api操作命令
依赖包<!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-client --> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <ver原创 2020-12-26 16:14:06 · 215 阅读 · 0 评论 -
sql 根据省份证号码提取年龄
hive sql 根据省份证号码提取年龄select a.sfzhm,CASE WHEN length(a.sfzhm) = 18 THEN floor(datediff(from_unixtime(unix_timestamp(), 'yyyy-MM-dd'), concat_ws('-', substr(a.sfzhm, 7, 4), substr(a.sfzhm, 11, 2), substr(a.sfzhm, 13, 2))) / 365) WHEN length(a.sfzhm)原创 2020-11-14 14:24:13 · 288 阅读 · 0 评论 -
hive错误
SQL 错误 [2] [08S01]: Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.tez.TezTask. Vertex failed, vertexName=Reducer 2, vertexId=vertex_1603165199554_8119_58_05, diagnostics=[Task failed, taskId=ta原创 2020-11-09 18:51:24 · 831 阅读 · 0 评论 -
hive on tez的调优《数据仓库》
1.常遇到的问题1.1 hive语句写入报错insert overwrite table dwd_user select xh,name from ods_user1.2 hive查询语句涉及到需要mapreduce处理的也报错2.关联关系3.调优实践假如我们使用的节点资源如上图所示,根据hive解析sql提交给tez,tez任务提交给yarn,所以内存大小配置一定不要超出容器的大小:3.1 配置yarnyarn.nodemanager.resource.memory-mb原创 2020-10-20 15:52:40 · 1341 阅读 · 0 评论 -
安装xdata步骤
1.修改配置文件/etc/security/limits.conf修改配置文件/etc/security/limits.conf在该配置文件中添加:vim /etc/security/limits.conf* soft nofile 65535* hard nofile 65535 修改之后重新SSH连接即可,不需要重启主机或服务2. 禁用禁用SELINUX永久性关闭selinux(重启服务器生效)sed -i 's/SELINUX=enforcing/SELINUX =d原创 2020-10-15 15:33:51 · 590 阅读 · 0 评论 -
命令行操作oozie当中任务的查看以及杀死
注意oozie时区的设置与系统保持一致1.查看所有普通任务:oozie jobs -oozie http://node63.xdata:11000/oozie结果Job ID App Name Status User Group Started Ended--------------------------------------------------------原创 2020-10-11 15:14:13 · 878 阅读 · 0 评论 -
hive 搭建数据仓库
Beeline连接!connect jdbc:hive2://10.10.8.14:10000用户名 hive密码 hive1.创建数据库CREATE SCHEMA lys_test01;show create database lys_test01;alter database lys_test01 default character set latin1;create database lys_test02 default character set latin1;常遇到的原创 2020-08-21 13:50:31 · 793 阅读 · 0 评论 -
利用nifi将csv文件转成json文件并增加修改字段
欢迎大家添加微信微信返利机器人:lys201910201.ConvertCSVToAvro2.UpdateRecord处理已经存在的列(Record Path Value)3.UpdateRecord修改列(Literal Value)4.UpdateRecord新增列(Literal Value)5.ConvertAvroToJSON6.转化后的效果...原创 2019-11-28 21:00:56 · 1995 阅读 · 1 评论 -
把ftp中的csv文件存放到hive中
1.整体流程2.配置用到的service2.1 配置oracle数据链接OracleDBCPConnectionPool2.2 配置HiveConnectionPool2.3 配置AvroReader2.4 配置AvroRecordSetWriter3.配置Processors3.1 扫描ftp目录确保安装的ftp服务器正常,能够正常的访问3.2 拉取文件3.3 ...原创 2019-11-18 09:55:25 · 412 阅读 · 0 评论 -
nifi 将oracle的数据同步到hive中
大家可以加微信返利机器人:lys20191020,将淘宝或者拼多多的商品链接发给他就可以购物得返利了1.整体流程图2.配置用到的service2.1 配置oracle数据链接OracleDBCPConnectionPool2.2 配置HiveConnectionPool3.配置Processors本例子采用全量更新为例子3.1 测试链接oracle数据库执行计划根据实际情况自...原创 2019-11-18 09:04:01 · 1807 阅读 · 0 评论 -
Hive之数据类型
数字类类型 长度 备注 TINYINT 1字节 有符号整型 SMALLINT 2字节 有符号整型 INT 4字节 有符号整型 BIGINT 8字节 有符号整型 FLOAT 4字节 有符号单精度浮点数 DOUBLE 8字节 有符号双精度浮点数 DECIMAL -- 可带小数...原创 2019-11-12 16:42:24 · 177 阅读 · 0 评论 -
HDP3.1.4的安装------创建本地yum源
最近发现一个购物可以省钱的微信机器人,买东西有优惠,而且可以返利,加微信:lys201910201.安装相应的工具yum install -y yum-utils createrepo httpd2.修改/etc/httpd/conf/httpd.conf#将DocumentRoot "/var/www/html"改为自己设置的路径/notebooks/download/hdp# ...原创 2019-11-03 18:16:55 · 3312 阅读 · 0 评论 -
nifi-1.9.2的安装
1.下载nifiwget https://www.apache.org/dyn/closer.lua?path=/nifi/1.9.2/nifi-1.9.2-bin.tar.gz2.解压tar -zxvf nifi-1.9.2-bin.tar3.修改配置vim config/nifi.propertiesnifi.web.http.host=0.0.0.0nifi.web.ht...原创 2019-10-20 10:38:03 · 687 阅读 · 0 评论 -
2.HDFS 常用的shell操作命令
常用的命令操作根据版本(最新版使用第二种方式)hadoop dfs -命令hdfs dfs -命令# 查看目录hdfs dfs -ls /# 创建文件夹hdfs dfs -mkdir /foodir# 删除文件夹hdfs dfs -rm -r /foodir# 上传文件hdfs dfs -put myfile.txt /foodir/myfile.txt# 查...原创 2019-07-20 21:17:33 · 345 阅读 · 0 评论 -
1.HDFS理论介绍
1.hdfs介绍Hadoop文件系统使用分布式文件系统设计开发。它是运行在普通硬件。不像其他的分布式系统,HDFS是高度容错以及使用低成本的硬件设计。HDFS拥有超大型的数据量,并提供更轻松地访问。为了存储这些庞大的数据,这些文件都存储在多台机器。这些文件都存储以冗余的方式来拯救系统免受可能的数据损失,在发生故障时。 HDFS也使得可用于并行处理的应用程序。2.HDFS的特点它适用于在分...原创 2019-07-20 21:15:29 · 377 阅读 · 0 评论 -
hive在hue上的配置应用(hue的应用教程---4)
1.hive的相关配置操作修改hive-site.xml配置文件<?xml version="1.0" encoding="UTF-8" standalone="no"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!-- Licensed to原创 2018-10-09 11:15:45 · 1337 阅读 · 1 评论 -
hbase在hue上的配置应用(hue的应用教程---3)
1.hbase相关配置的修改修改hbase-site.xml文件如下<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!--/** * * Licensed to the Apache Software Foundation (ASF) ...原创 2018-10-09 11:05:41 · 1034 阅读 · 0 评论 -
hdfs在hue上的配置应用(hue的应用教程---2)
1.Hadoop的相关配置文件的修改修改etc/hadoop/core-site.xml 文件<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!-- Licensed under the Apac原创 2018-10-09 10:52:53 · 752 阅读 · 0 评论 -
hue的安装与配置(hue的应用教程---1)
1.下载版本http://gethue.com/downloads/releases/3.10.0/hue-3.10.0.tgz2.安装相关de的依赖包sudo yum install ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi cyrus-sasl-plain gcc gcc-c++ krb5-devel libffi-deve...原创 2018-10-08 18:00:46 · 2392 阅读 · 2 评论 -
flume 1.6 安装及配置 日志采集配置
1.下载flume1.6https://mirrors.tuna.tsinghua.edu.cn/apache/flume/1.6.0/apache-flume-1.6.0-bin.tar.gz 2.安装jdk和Hadoop具体参照以前wen'文章3.flume 配置文件修改修改conf目录下的flume-env.sh文件 export JAVA_HOME=/etc/...原创 2018-09-29 10:39:30 · 1956 阅读 · 0 评论 -
Hadoop 2.7.3安装与配置------Hadoop学习(1)
1.JDK1.8.0_101的安装与配置(1)百度云下载地址链接:http://pan.baidu.com/s/1i5JOCiL 密码:8hyr(2)下载后在centos6.5中解压路径为/usr/jdk1.8.0_101(3)将java添加到环境变量中vi /etc/profile添加如下配置export JAVA_HOME=/usr/jdk1.8.0_101原创 2016-10-14 16:42:45 · 11915 阅读 · 0 评论 -
SSH免密钥登录 ------Hadoop学习(2)
Hadoop的进程之间同信使用ssh方式,需要每次都要输入密码。为了实现自动化操作,需要配置ssh免密码登陆方式。(1)cd .ssh(2)ssh-keygen -t rsa 执行4次回车键(3)cp id_rsa.pub authorized_keys原创 2016-10-16 20:51:40 · 850 阅读 · 0 评论 -
HBase1.2.3安装与配置------Hadoop学习(3)
(1)环境安装的前提条件环境安装的前提条件是安装了JDK和hadoop,具体安装过程参照Hadoop 2.7.3安装与配置------Hadoop学习(1)网址:http://blog.csdn.net/liuyunshengsir/article/details/52816883(2)HBase1.2.3的下载 1.百度云下载地址链接:http://pan.baidu.com...原创 2016-11-27 19:37:07 · 1416 阅读 · 0 评论 -
docker创建hadoop2.7.3集群
1.利用yum安装docker2.确保docker安装完成后需要关闭防火墙并重启系统systemctl stop firewallds systemctl disable firewallds注意:执行完上面的命令之后需要重启系统reboot -h(重启系统)闭防火墙3.需要关闭selinux 解决方法:1:setenforce 0(原创 2018-01-22 15:17:04 · 712 阅读 · 0 评论 -
HBase常用命令
HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapReduce来处理Bigt...原创 2018-04-10 17:52:33 · 365 阅读 · 0 评论