- 博客(11)
- 资源 (2)
- 问答 (2)
- 收藏
- 关注
原创 Spark-Streaming整合Kafka实现wordcount
配置版本信息:spark-2.3.4,Kafka-2.10,Scala-2.11,JDK81.创建Maven工程配置Pom文件 <properties> <spark.version>2.3.4</spark.version> <kafka.version>2.1.0</kafka.version> </properties> <dependencies>
2021-03-29 16:30:49
189
原创 Hive——用户自定义函数(UDF)的实现
编写UDF,实现季度的判断,具体过程如下:编写sql脚本创建数据库,表,导入数据 create database if not exists udf; use udf; create table if not exists quarterUDF( dates string, name string) row format delimited fields terminated by ','; load data local inpath '/XX/udfdata.csv' overwri
2021-03-28 10:59:26
214
原创 Cassandra快速上手
Cassandra1.特点介绍面向列的NoSQL数据库有HBase。存储jsaon文本的NoSQL有 MongoDB。存储key-value键值对的有Redis。关系型数据库:非关系型数据库:Cassandra是NoSQL数据库 , 是一个面向列的列存储数据库,特点如下:可以线性扩展, 通过增加群集中的节点数量提高吞吐量每个节点都有相同数据的副本,可容错, 每个节点是独立的,同时与其他节点互连。集群中的所有节点都扮演着相同的角色, 每个节点都可以接受读取和写入请求支持事务,诸如原子性,
2021-03-25 11:29:19
250
原创 快速上手Flume?看这篇就够了
Flume数据采集文章目录Flume数据采集1.基本概念特点安装配置Agent2.Agent组件及应用任务1任务2任务33.通道3.1 组成3.2 拦截器任务1任务23.3 Channel选择器任务1:复制选择器的使用3.4 Sink处理器任务14.常见的Agent配置方案方案1:采集新增source到logger方案2:从Avro端口采集数据到logger方案3:收集文件后输出到Avro指定端口,另一台机器从该端口读取,并输出logger。方案4:两台服务器收集实时产生的日志,汇总到第三台服务器的HDF
2021-03-22 15:12:46
308
1
原创 关于Kafka,你需要知道的都在这
文章目录1.消息系统消息队列发布订阅模式kafka架构一致性原则消费者分配策略文件存储结构常见问题2.安装配置Kafka常用操作3.开发环境API1.ProducerAPI:在windows端发送消息,指定partition接收2.ConsumerAPI:在Linux端发送数据到指定partition,windows端接收1.消息系统消息队列异步通信实现削峰操作解决生产者,消费者处理消息不一致发布订阅模式消费者主动拉取消息(kafka) 缺点:若队列中没有消息,消费者任然会不
2021-03-22 14:58:27
143
原创 Hadoop基础知识——MapReduce篇
1 原理及组成Client:用户编写的MapReduce程序通过Client提交到JobTracker端;用户可通过Client提供的一些接口查看作业运行状态JobTracker:负责资源监控和作业调度,JobTracker 监控所有TaskTracker与Job的健康状况,一旦发现失败,就将相应的任务转移到其他节点。JobTracker 会跟踪任务的执行进度、资源使用量等信息,并将这些信息告诉任务调度器(TaskScheduler),而调度器会在资源出现空闲时,选择合适的任务去使用这些资源TaskT
2021-03-19 09:45:21
316
原创 一些conda的操作,记录一下
conda create -n 环境名 python=3:新建一个环境conda info --envs :列出所有存在的环境activate 环境名:激活环境conda remove -n 环境名 --all:删除环境
2021-03-17 16:20:10
48
原创 使用python连接hive(亲测有用~)
1.在conda中安装包pip install saslpip install thriftpip install thrift-saslpip install PyHive其中在安装sasl时发生了错误,在https://www.lfd.uci.edu/~gohlke/pythonlibs/#sasl中找到对应系统版本个python版本的下载whl文件并安装(whl文件直接到文件目录pip install即可)2.启动远程连接服务在Linux端启动Hadoop并在任意目录下输入:hive
2021-03-17 16:13:52
5173
原创 Hadoop基础知识——HDFS篇
1.HDFS1.1 原理及组成NameNode:管理文件系统的namespace,这些信息以镜像文件(FsImage)和日志文件(EditLog)永久保存在磁盘上。文件与block的映射信息和块所在数据节点的信息保存在内存中,它不是永久保存的,系统重启时会消失。DataNode: 负责存储client发来的数据块block;执行数据块的读写操作[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eEein5T0-1615882424223)(C:\Users\JiQT\Ap
2021-03-16 16:16:52
264
原创 大数据JAVA相关面试题(持续更新~~~)
JVM虚拟机组成,堆分配内存大小 组成:Java栈,本地方法栈,堆,方法区,程序计数器 一般分配不超过物理内存的1/4JVM初始化类的步骤 编译为class文件通过类加载器加载到JVM中;在JVM中验证该文件是否符合虚拟机要求;为类变量分配内存,设置初始值;将常量池中符号引用转为直接引用;初始化类变量和静态代码块GC回收机制,回收算法 GC只发生在堆和方法区,堆又分为元空间(堆外内存),新生区(伊甸园区和幸存区),养老区 回收算法:复制算法,标记清除法,标记压缩..
2021-03-16 16:11:43
176
原创 Hadoop完全分布式HA集群搭建
Hadoop完全分布式HA集群搭建写在前面的文件配置:VMWare 15.5.0,ubuntu18.04.3,Xftp5,hadoop-2.7.1,jdk-8u231-linux-x64,Xshell6,Python-2.7.10节点分配:节点名称NN1NN2DN1DN2DN3namenode✔✔datanode✔✔✔resoursemanager✔✔nodemanager✔✔✔zookeeper
2020-06-23 15:26:03
325
scala如何构建无参辅助构造函数
2022-08-10
TA创建的收藏夹 TA关注的收藏夹
TA关注的人