自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (2)
  • 问答 (2)
  • 收藏
  • 关注

原创 Spark-Streaming整合Kafka实现wordcount

配置版本信息:spark-2.3.4,Kafka-2.10,Scala-2.11,JDK81.创建Maven工程配置Pom文件 <properties> <spark.version>2.3.4</spark.version> <kafka.version>2.1.0</kafka.version> </properties> <dependencies>

2021-03-29 16:30:49 189

原创 Hive——用户自定义函数(UDF)的实现

编写UDF,实现季度的判断,具体过程如下:编写sql脚本创建数据库,表,导入数据 create database if not exists udf; use udf; create table if not exists quarterUDF( dates string, name string) row format delimited fields terminated by ','; load data local inpath '/XX/udfdata.csv' overwri

2021-03-28 10:59:26 214

原创 Cassandra快速上手

Cassandra1.特点介绍面向列的NoSQL数据库有HBase。存储jsaon文本的NoSQL有 MongoDB。存储key-value键值对的有Redis。关系型数据库:非关系型数据库:Cassandra是NoSQL数据库 , 是一个面向列的列存储数据库,特点如下:可以线性扩展, 通过增加群集中的节点数量提高吞吐量每个节点都有相同数据的副本,可容错, 每个节点是独立的,同时与其他节点互连。集群中的所有节点都扮演着相同的角色, 每个节点都可以接受读取和写入请求支持事务,诸如原子性,

2021-03-25 11:29:19 250

原创 快速上手Flume?看这篇就够了

Flume数据采集文章目录Flume数据采集1.基本概念特点安装配置Agent2.Agent组件及应用任务1任务2任务33.通道3.1 组成3.2 拦截器任务1任务23.3 Channel选择器任务1:复制选择器的使用3.4 Sink处理器任务14.常见的Agent配置方案方案1:采集新增source到logger方案2:从Avro端口采集数据到logger方案3:收集文件后输出到Avro指定端口,另一台机器从该端口读取,并输出logger。方案4:两台服务器收集实时产生的日志,汇总到第三台服务器的HDF

2021-03-22 15:12:46 308 1

原创 关于Kafka,你需要知道的都在这

文章目录1.消息系统消息队列发布订阅模式kafka架构一致性原则消费者分配策略文件存储结构常见问题2.安装配置Kafka常用操作3.开发环境API1.ProducerAPI:在windows端发送消息,指定partition接收2.ConsumerAPI:在Linux端发送数据到指定partition,windows端接收1.消息系统消息队列异步通信实现削峰操作解决生产者,消费者处理消息不一致发布订阅模式消费者主动拉取消息(kafka) 缺点:若队列中没有消息,消费者任然会不

2021-03-22 14:58:27 143

原创 Hadoop基础知识——MapReduce篇

1 原理及组成Client:用户编写的MapReduce程序通过Client提交到JobTracker端;用户可通过Client提供的一些接口查看作业运行状态JobTracker:负责资源监控和作业调度,JobTracker 监控所有TaskTracker与Job的健康状况,一旦发现失败,就将相应的任务转移到其他节点。JobTracker 会跟踪任务的执行进度、资源使用量等信息,并将这些信息告诉任务调度器(TaskScheduler),而调度器会在资源出现空闲时,选择合适的任务去使用这些资源TaskT

2021-03-19 09:45:21 316

原创 一些conda的操作,记录一下

conda create -n 环境名 python=3:新建一个环境conda info --envs :列出所有存在的环境activate 环境名:激活环境conda remove -n 环境名 --all:删除环境

2021-03-17 16:20:10 48

原创 使用python连接hive(亲测有用~)

1.在conda中安装包pip install saslpip install thriftpip install thrift-saslpip install PyHive其中在安装sasl时发生了错误,在https://www.lfd.uci.edu/~gohlke/pythonlibs/#sasl中找到对应系统版本个python版本的下载whl文件并安装(whl文件直接到文件目录pip install即可)2.启动远程连接服务在Linux端启动Hadoop并在任意目录下输入:hive

2021-03-17 16:13:52 5173

原创 Hadoop基础知识——HDFS篇

1.HDFS1.1 原理及组成NameNode:管理文件系统的namespace,这些信息以镜像文件(FsImage)和日志文件(EditLog)永久保存在磁盘上。文件与block的映射信息和块所在数据节点的信息保存在内存中,它不是永久保存的,系统重启时会消失。DataNode: 负责存储client发来的数据块block;执行数据块的读写操作[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eEein5T0-1615882424223)(C:\Users\JiQT\Ap

2021-03-16 16:16:52 264

原创 大数据JAVA相关面试题(持续更新~~~)

JVM虚拟机组成,堆分配内存大小​ 组成:Java栈,本地方法栈,堆,方法区,程序计数器​ 一般分配不超过物理内存的1/4JVM初始化类的步骤​ 编译为class文件通过类加载器加载到JVM中;在JVM中验证该文件是否符合虚拟机要求;为类变量分配内存,设置初始值;将常量池中符号引用转为直接引用;初始化类变量和静态代码块GC回收机制,回收算法​ GC只发生在堆和方法区,堆又分为元空间(堆外内存),新生区(伊甸园区和幸存区),养老区​ 回收算法:复制算法,标记清除法,标记压缩..

2021-03-16 16:11:43 176

原创 Hadoop完全分布式HA集群搭建

Hadoop完全分布式HA集群搭建写在前面的文件配置:VMWare 15.5.0,ubuntu18.04.3,Xftp5,hadoop-2.7.1,jdk-8u231-linux-x64,Xshell6,Python-2.7.10节点分配:节点名称NN1NN2DN1DN2DN3namenode✔✔datanode✔✔✔resoursemanager✔✔nodemanager✔✔✔zookeeper

2020-06-23 15:26:03 325

apache-phoenix-4.9.0-HBase-1.1-bin.tar.gz

实现sql操作hbase

2021-03-30

Tableau Desktop Professional 10.5.0 x64.rar

可视化BI工具

2021-03-19

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除