![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 54
一只小呆呆
成功始于觉醒心态决定命运
展开
-
java编写flink连接kafka常见问题总结
文章目录控制台输出问题没有执行计划问题不能执行sql问题动态表转为动态流问题控制台输出问题问题描述代码运行一会就结束,没有错误提示,也没有运行结果解决方法两种情况第一种日志没配好添加依赖 <dependency> <groupId>org.apache.logging.log4j</groupId> <artifactId>log4j-slf4j-impl</artifactId>原创 2021-04-21 17:13:28 · 1843 阅读 · 0 评论 -
canal配置文件参数
文章目录canal.propertiesinstance.propertiescanal.properties指一些实例instance公共的配置########################################################## common argument ############################################################### tcp bind ipca原创 2021-04-16 17:19:58 · 937 阅读 · 0 评论 -
flink滚动窗口和滑动窗口
文章目录滚动窗口滑动窗口滚动窗口时间不重叠,只有一个时间参数,即多长时间滚动一次滚动窗口又分为滚动事件时间窗口,滚动处理时间窗口事件时间指数据中的时间字段处理时间指系统时间TumblingProcesspackage com.hehe.window;import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.java.tuple.Tuple2;import org.原创 2021-04-13 14:33:25 · 3274 阅读 · 0 评论 -
kafka常用命令
文章目录kafka启动kafka查看list topickafka创建生产者kafka创建消费者kafka 删除topickafka启动首先确保启动zookeeperkafka-server-start.sh -daemon /usr/local/soft/kafka_2.11-1.0.0/config/server.propertieskafka查看list topickafka-topics.sh --list --zookeeper master:2181kafka创建生产者k原创 2021-04-13 14:23:21 · 72 阅读 · 0 评论 -
java代码读取Kafka生产者和消费者
文章目录生产者消费者生产者package com.hehe.kafka;import org.apache.kafka.clients.producer.ProducerRecord;import org.apache.kafka.clients.producer.KafkaProducer;import java.util.Properties;public class Kafkaproduce { public static void main(String[] args)原创 2021-04-01 16:33:19 · 322 阅读 · 0 评论 -
canal监控msyql日志打印到kafka,解析日志控制台打印
文章目录一、开启mysql的binlog二、配置canal三、启动zookeeper,启动kafka,启动canal四、打开本地idea,编写代码scala版本java版本五、flink的toAppendStream与toRetractStream一、开启mysql的binlogvim /etc/my.cnf[mysqld]# 打开binloglog-bin=mysql-bin# # 选择ROW(行)模式 binlog-format=ROW# # 配置MySQL replaction需要定原创 2021-04-01 15:41:16 · 481 阅读 · 0 评论 -
将hive中的表移至mysql
文章目录一、在hive中准备一个表二、在mysql中创建对应字段的表三、编写idea代码 mysql和navicate的安装 在mysql专栏下,之前写过,需要的自己翻之前的博客一、在hive中准备一个表注意:hive的元数据需开启nohup hive --service metastore >> metastore.log 2>&1 &二、在mysql中创建对应字段的表三、编写idea代码package com.hgh.adsimport jav原创 2021-03-30 10:25:41 · 657 阅读 · 0 评论 -
flink1.12.2单机版安装
文章目录准备一、下载对应版本的flink二、安装1.解压2.修改权限准备java安装好,无需Hadoop环境一、下载对应版本的flinkhttps://flink.apache.org/downloads.html官网下载二、安装1.解压tar -zxvf flink-1.12.2-bin-scala_2.12.tgz2.修改权限chown -R root:root /usr/local/soft/flink-1.12.2...原创 2021-03-22 15:33:06 · 732 阅读 · 0 评论 -
spark运行java包
文章目录一、spark二、java中编写spark运行代码1)导入依赖和插件2)代码本地运行打包到集群中运行,结果输出在hdfs上一、spark也是基于mr的计算,和Hadoop的MapReduce阶段底层一样spark是基于内存进行数据处理的,MapReduce是基于磁盘进行数据处理的spark比MapReduce快,不仅因为基于内存,还因为DAG(根本原因)DAG计算模型在迭代计算上还是比MapReduce的效率更高spark中具有DAG有向无环图,DAG有向无环图在此过程中减少了shuf原创 2020-11-02 23:28:41 · 938 阅读 · 0 评论 -
phonex的使用,二级索引,预分区,调优
文章目录一、基本指令1)创建表2)删除表3)插入数据4)查询数据5)删除数据6)退出命令行二、映射1)视图映射创建视图查询视图删除视图2)表映射删除表3)视图映射和表映射的区别三、二级索引1)修改配置文件2)全局索引增加索引删除索引创建多列索引Hbase适合存储大量的对关系运算要求低的NOSQL数据,受Hbase 设计上的限制不能直接使用原生的PAI执行在关系数据库中普遍使用的条件判断和聚合等操作。Apache Phoenix提供一种更面向普通开发人员的操作方式Phoenix 基于Hbase给面向业原创 2020-10-25 22:30:30 · 672 阅读 · 0 评论 -
hbase客户端读写操作
文章目录一、hbase读写流程1)系统表2)读流程1.连接zookeeper,获取meta2.检索,查找rowkey所在的region的位置信息,连接对应的regionServer3.如果设置了in-memory缓存4.如果没有设置in-memory缓存3)写流程1.连接zookeeper,获取meta2.检索,查找rowkey所在的region的位置信息,连接对应的regionServer3.将写入的数据保存到memstore中4.后台自动触发flush写入storefile二、过滤器1)操作符2)比较器原创 2020-10-23 20:54:05 · 369 阅读 · 0 评论 -
hbase的介绍和使用
文章目录一、hbase二、hbase的操作指令1)start-hbase.sh启动hbase集群2)hbase shell 进入hbase命令行3)创建一个表,指定一个列族,每个表中必须要有一个列族4)list查看当前命名空间下的表5)向表中插入数据6)查询数据7)describe 'test' 查看表结构8)删除列族和增加列族9)scan ‘test’ 扫描全表10)统计记录数11)禁用和启用表,删除表一、hbasehbase是一个实时分布式的高维数据库基于hdfs文件存储系统,通过MapRed原创 2020-10-20 20:33:53 · 760 阅读 · 3 评论 -
Hadoop基础学习十三(zookeeper的搭建)
文章目录一、上传zookeeper压缩包,解压二、配置系统环境变量可以在任意位置进入zookeeper三、修改配置文件四、同步到其他节点五、在三个节点中都操作1)在zk目录下创建目录data2)在data目录下创建myid文件六、启动zookeeper七、注意一、上传zookeeper压缩包,解压zookeeper资源下载链接:https://pan.baidu.com/s/11uHI2Ej5AJA082bZAyGqqQ提取码:hehetar -xvf zookeeper-3.4.6.tar.g原创 2020-10-19 15:35:26 · 160 阅读 · 0 评论 -
Hadoop基础学习十一(hive语法)
文章目录1.map阶段2.reduce阶段3.where2.join3.group by4.order by5.sort by6.if(判断条件,成立的返回值,否则的返回值)7.case when xx then yy else zz endhIve的hql的u数据类型和java中的基本数据类型差不多,但是data类型的格式必须为YYYY-MM-DDMySQL的执行顺序:from=》where=》group by =》having=》select=》order by=》limithive的执行语句原创 2020-10-18 19:53:10 · 703 阅读 · 0 评论 -
hadoop基础学习十(hive的分区和分桶,加载数据)
文章目录一、分区原创 2020-10-17 21:07:12 · 1449 阅读 · 3 评论 -
Hadoop基础学习九(Hive的介绍和使用,创建表)
文章目录一、hivehive与MySQL的区别1)存储位置:2)数据更新3)执行延迟4)数据规模hive的存储格式二、使用1.启动hive2.创建数据库3.建表1)方法一:全部使用默认配置2)方法二:指定建表目录3)方法三:指定存储文件格式一、hivehive是基于Hadoop的一个客户端工具,可以用来进行数据提取转化加载(ETL ),部署时不一定放在集群管理节点中,可以放在某个节点上是大数据行业中数据仓库建设的工具之一。hive不是分布式Hive是SQL解析引擎,它将SQL语句转译成M原创 2020-10-16 10:29:24 · 1282 阅读 · 0 评论 -
Hadoop基础学习六(两张表的连接)
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.Mapper;import org.apache.原创 2020-10-15 18:23:50 · 299 阅读 · 0 评论 -
Hadoop运行程序时的异常处理
1.Exception in thread “main” java.lang.NoSuchMethodException: DDD_Demo2.main([Ljava.lang.String;) at java.lang.Class.getMethod(Class.java:1786) at org.apache.hadoop.util.RunJar.run(RunJar.java:215) at org.apache.hadoop.util.RunJar.main(RunJar.java:136)出现找原创 2020-10-15 15:36:55 · 388 阅读 · 0 评论 -
hadoop的优化
文章目录1.hdfs2.mapreduce1)配置层面2)程序层面3.yarn1.hdfsHDFS:做HA高可靠。如果磁盘空间充足,可以增加副本数。还有一些小文件合并。hdfs的文件存储:比如可以压缩文件等。2.mapreduce1)配置层面调整map数量当集群的资源(cpu,内存)比较充足。可以适当将切片大小,调小。这时候会增加map的数量,加快读取处理速度。当集群的资源(cpu,内存)比较紧缺。可以适当将切片大小,调大。这时候会减少map的数量,可以一定程度提高效率。调整redu原创 2020-10-15 14:05:58 · 521 阅读 · 0 评论 -
Hadoop基础学习五(MapReduce,wordcount)
文章目录一、MapReduce1.概述2.过程1.map阶段2.reduce阶段一、MapReduce1.概述mapreduce是一个分布式计算模型,由map和reduce两个阶段组成,map和reduce阶段都是一个独立的程序,由很多个节点同时运行,每个节点处理一部分数据,可以只有map,不可以只有reduce。2.过程1.map阶段1)切片从hdfs上读取数据,在读取数据时,首先要对要读取的文件进行逻辑上的划分,每个block块对应一个切片,切片大小由block的大小决定(默认为128MB原创 2020-10-14 18:29:03 · 340 阅读 · 0 评论 -
java连接hdfs将数据插入到MySQL中
一、从主节点中查看要插入的文件在hdfs上的元信息数据并没有存放在主节点中,主节点用于维护文件系统,存放元信息(文件的属性,路径,大小,在DN上的位置信息等)二、在MySQL中建好表用于插入数据三、编写代码java中要有Hadoop和数据库的依赖包package hdfs;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apa原创 2020-10-13 20:16:52 · 591 阅读 · 0 评论