大数据集群
笙不凡
这个作者很懒,什么都没留下…
展开
-
cdh整合sqoop
找到sqoop的安装路径,我的机器路径为/opt/cloudera/parcels/CDH-6.3.2-1.cdh6.3.2.p0.1605554/lib/sqoop/lib将mysql-connector-java-8.0.17.jar包放入测试一下原创 2022-04-13 15:52:06 · 492 阅读 · 0 评论 -
ERROR KeyProviderCache: Could not find uri with key [dfs.encryption.key.provider.uri]
作业可能会出现以下报错> ERROR org.apache.hadoop.hdfs.KeyProviderCache - Could not find uri with key [dfs.encryption.key.provider.uri] to create a keyProvider !!这个报错是hdfs客户端的一个bug,但并不影响作业正常运行,且在2.8版本之后已经修复相关代码...原创 2022-03-25 17:28:23 · 3414 阅读 · 0 评论 -
zepeline连接CDH中spark
在spark的解释器中添加spark_home的地址即可原创 2022-03-21 14:41:13 · 1351 阅读 · 0 评论 -
在Linux中crontab定时任务不执行date命令原因分析
问题我在crontab中添加一条定时任务如下,用于每天把运行代码的日志存放到指定目录文件:30 10 * * * cd /raid_disk2/home/liumingkai/hvv/ && /usr/bin/python /raid_disk2/home/liumingkai/hvv/send_hvv_ioc_confidence.py "/raid_disk2/home/liumingkai/hvv/filterip/data/`date +%Y%m%d`.txt" >>原创 2021-07-05 15:54:20 · 740 阅读 · 0 评论 -
Hadoop作业调度策略
作业调度策略有三种:1、默认调度算法–FIFO队列策略:hadoop默认调度器,它先按照作业优先级的高低,再按照到达时间的先后来选择被执行的作业。优点:调度算法简单,JobTracker工作负担轻。缺点:忽略了不同作业的需求差异。例如如果类似于对海量数据进行统计分析的作业长期占据计算资源,那么在其后提交的交互型作业有可能迟迟得不到处理,从而影响用户体验。2、计算能力调度算法Capacity Scheduler(Yahoo 开发)(1)Capacity Scheduler 中可以定义多个作业队列,原创 2021-03-10 15:39:39 · 730 阅读 · 0 评论 -
Hadoop文件读写简易版
NameNode 不需要从磁盘读取 metadata,所有数据都在内存中,硬盘上的只是序列化的结果,只有每次namenode 启动的时候才会读取。文件写入Client 向 NameNode 发起文件写入的请求。NameNode 根据文件大小和文件块配置情况,返回给 Client 它所管理部分 DataNode 的信息。Client 将文件划分为多个 Block,根据 DataNode 的地址信息,按顺序写入到每一个 DataNode 块中。文件读取Client 向 NameNode 发起文件读取原创 2021-03-10 15:28:26 · 85 阅读 · 1 评论 -
分布式集群hbase的搭建
一上传hbase的安装包tar -xvzf hbase-2.2.5 -C /opt/module 二配置hbase-env.sh 文件export HBASE_MANAGES_ZK=falseexport JAVA_HOME=/opt/module/jdk1.8.0_261三配置hbase-site.xml 文件此文件详见另一篇博客:https://blog.csdn.net/lucklydog123/article/details/113103205四配置regionservers文件原创 2021-01-25 09:55:38 · 87 阅读 · 0 评论 -
hbase分布式集群的hbase-site.xml的配置
<configuration> <!--******核心配置,必须配置********--> <property> <name>hbase.rootdir</name> <value>hdfs://hadoop102:9000/hbase</value> <description>指定Region服务器共享的目录,用来持久存储HBase的数据,URL原创 2021-01-25 09:41:40 · 1723 阅读 · 0 评论 -
kafka集群简单使用
创建主题topicbin/kafka-topics.sh --create --bootstrap-server hadoop102:9092 --topic test查看主题是否被创建成功bin/kafka-console-producer.sh --broker-list hadoop102:9092 分别创建生产者和消费者在本节点创建一个生产者bin/kafka-console-producer.sh --broker-list hadoop102:9092 --topic test原创 2021-01-06 20:34:29 · 87 阅读 · 0 评论 -
Linux下kafka集群配置安装
写在最前由于kafka的启动依赖zookeeper,所以在此之前首首先需要安装号zookeeper集群并可以成功启动,一.下载kafka的包先去镜像网站下载kafka对应版本的jar包,apache安装包镜像网站然后上传到Linux中解压,并使用xsnyc命令将其分发到集群的其他节点的机器中 xsync kafka/进入到config目录下,修改kafka的安装配置vim server.properties主要修改broker.id,log.dirs=/opt/module/kafk原创 2021-01-06 20:07:14 · 477 阅读 · 0 评论 -
zepelin中使用sparksql连接hive出现的问题
关于在zepelin中使用sparksql连接hive,只能查询到default数据库,由于我的spark已经整合好了hive,最后找到其原因,发现是有一个spark集群的节点,没有配好hive,将hive的hive-site.xml文件放到此节点的conf目录下,将jdbc的连接驱动放到此节点的jars目录下,重启zepelin,测试hive连接,发现可以查询到hive数据中的内容。关于spark整合hive可以参考我的上篇博文:https://blog.csdn.net/lucklydog123/a原创 2020-12-10 09:53:39 · 275 阅读 · 0 评论 -
Spark集群中整合hive(元数据存储在MySQL)
本文的前提是,已经在集群的一个节点配置好了hive,我的hive已经再Hadoop104节点配置完毕,并且可以正常启动和运行。一.将hive-site.xml,复制到spark主节点的conf目录下scp hive-site.xml LMK@hadoop102:/opt/module/spark-2.4.6/conf二.将jdbc的连接驱动放到spark的jars目录下 scp mysql-connector-java-5.1.38.jar LMK@hadoop102:/opt/module/s原创 2020-12-09 15:35:12 · 245 阅读 · 0 评论 -
Linux中scp,rsync,xsync命令的区别
scp、 拷贝完全相同scp -r etc/hadoop/dfs.hosts [email protected]:/usr/local/hadoop/hadoop-2.7.6/etc/hadoop/rsync、拷贝有差异的文件rsync -rvl etc/hadoop/hdfs-site.xml [email protected]:/usr/local/hadoop/hadoop-2.7.6/etc/hadoop/xsync、循环复制文件到所有节点相同的目录下!/bin/bas原创 2020-12-09 15:22:23 · 856 阅读 · 0 评论 -
spark jion ,shuffle经历啦哪些过程
请求读取指定的分片数据split去MapOutputTrackerMaster拉取该shuffleid的分片地址信息通过netty到相关的地址拉取指定Partition的数据去拉取回来的数据执行聚合函数操作去执行后的iterator数据执行 keyorder排序数据,然后最后返回...原创 2020-12-06 20:00:57 · 121 阅读 · 0 评论 -
spark的三种jion方式
大佬写的文章,spark的三种jion方式,写的挺好的,标个点,下次方便看https://www.cnblogs.com/duodushuduokanbao/p/9911256.html转载 2020-12-06 19:46:36 · 100 阅读 · 0 评论 -
Zeppelin的配置和安装
Zeppelin 是和Juppter 类似的笔记本工具,支持多种语言,支持spark,scala ,一》在官网下载安装包,我选择的是在清华的镜像网站下载https://mirrors.tuna.tsinghua.edu.cn/apache/zeppelin/将其解压到Linux中,这里我选则的是我的hadoop104节点。二》如果只是用于了解和学习,并不需要复杂配置,只需要配置env文件和site文件即可。首先将conf目录下的zeppelin-site.xml模板复制一份,env文件同理。c原创 2020-12-05 21:09:21 · 518 阅读 · 0 评论 -
spark集群的配置文件
spark.env.sh#指定yarn的配置文件地址YARN_CONF_DIR=/opt/module/hadoop-2.7.7/etc/hadoop#指定JAVA_HOMEexport JAVA_HOME=/opt/module/jdk1.8.0_261#指定Spark Master 地址export SPARK_MASTER_HOST=hadoop102export SPARK_MASTER_POST=7077#指定spark的运行参数export SPARK_HISTORY_.原创 2020-12-05 15:50:28 · 473 阅读 · 0 评论 -
zookeeper的常用shell命令
创建节点create [-s] [-e] path data-s 表示创建一个有序节点-e 表示创建一个临时节点创建了一个持久节点创建一个持久化有序节点create -s /a "aaa"创建临时节点,临时节点会在会话过期之后删除create -e /temp "temp"创建一个临时有序节点create -s -e /temp "temp"修改节点set /hadoop "345"删除节点delete /hadoop若当前节点有子节点,delete命令无法删原创 2020-11-30 20:14:10 · 147 阅读 · 0 评论 -
zookeeper中共享锁
共享锁共享锁在同一个进程中很容易实现,但是在跨进程或者在不同 Server 之间就不好实现了。Zookeeper 却很容易实现这个功能,实现方式也是需要获得锁的 Server 创建一个 EPHEMERAL_SEQUENTIAL 目录节点,然后调用 getChildren 方法获取当前的目录节点列表中最小的目录节点是不是就是自己创建的目录节点,如果正是自己创建的,那么它就获得了这个锁,如果不是那么它就调用 exists(String path, boolean watch) 方法并监控 Zookeeper原创 2020-11-30 11:17:46 · 290 阅读 · 0 评论 -
Zookeeper功能简介
Zookeeper功能简介ZooKeeper 是一个开源的分布式协调服务,由雅虎创建,是 Google Chubby 的开源实现。 分布式应用程序可以基于 ZooKeeper 实现诸如数据发布/订阅、负载均衡、命名服务、分布式协 调/通知、集群管理、Master 选举、分布式锁和分布式队列 等功能。Zookeeper基本概念集群角色Leader (领导)Follower (追随者)Observer (观察员)一个 ZooKeeper 集群同一时刻只会有一个 Leader,其他都是 Foll原创 2020-11-23 19:01:18 · 206 阅读 · 0 评论 -
hive建表语法和参数说明
create [external] table [if not exists] table_name (col_name data_type [comment '字段描述信息']col_name data_type [comment '字段描述信息'])[comment '表的描述信息'][partitioned by (col_name data_type,...)][clustered by (col_name,col_name,...)][sorted by (col_name [asc|原创 2020-11-21 20:02:19 · 1410 阅读 · 1 评论 -
hive创建不同的表(内部,外部,分区,分桶)
Hive本身并不存储数据,而是将数据存储在Hadoop的HDFS中,表名对应HDFS中的目录/文件。根据数据的不同存储方式,将Hive表分为外部表、内部表、分区表和分桶表四种数据模型。每种数据模型各有优缺点。通过create user命令创建user表时,会在HDFS中生成一个user目录/文件。外部表数据不由Hive管理,使用drop命令删除一个表时,只是把表的元数据给删除了,而表的数据不会删除。 创建外部表的SQL语句:create external table bigdata17_user(u原创 2020-11-21 19:55:30 · 479 阅读 · 0 评论 -
hive导入excel数据
拿到Excel表后将数据保留,其他的乱七八糟都删掉,然后另存为txt格式的文本,用nodepad++将文本转换为UTF-8编码,此处命名为cityprovince.txt将cityprovince.txt传入操作的Linux环境中hive建表,注意字段类型要相同drop table tmp.cityprovince;create table tmp.cityprovince (province String,city String,county String,station String) ro原创 2020-11-21 17:02:27 · 2990 阅读 · 2 评论 -
Linux中MySQL数据库不能启动
一般这种情况是通过yum在线下载的MySQL数据库,在Linux重启后,本地的不能远程连接到数据库,并且在Linux查看数据库,发现数据库不能启动,mysql服务。我的Linux中在进入MySQL的时候会报这种错误,在多次尝试之后。发现,执行我在安装时曾经运行过的代码,可以顺利启动/etc/init.d/mysqld start运行之后,可以启动,并且可以正常使用。...原创 2020-11-20 21:22:31 · 968 阅读 · 0 评论 -
集群时间同步
大佬的集群时间同步博客,插个眼https://www.jianshu.com/p/4160388ddc9f原创 2020-11-18 21:09:27 · 56 阅读 · 0 评论 -
Linux中配置hive的hive-site.xml文件
<?xml version="1.0" encoding="UTF-8" standalone="no"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration><!--连接数据的用户名--> <property> <name>javax.jdo.option.ConnectionUserName</name>原创 2020-11-18 18:47:08 · 8696 阅读 · 2 评论