JIQT-CSDN博客

原创 Spark-Streaming整合Kafka实现wordcount

配置版本信息：spark-2.3.4，Kafka-2.10，Scala-2.11，JDK81.创建Maven工程配置Pom文件 <properties> <spark.version>2.3.4</spark.version> <kafka.version>2.1.0</kafka.version> </properties> <dependencies>

2021-03-29 16:30:49 189

原创 Hive——用户自定义函数(UDF)的实现

编写UDF，实现季度的判断，具体过程如下：编写sql脚本创建数据库，表，导入数据 create database if not exists udf; use udf; create table if not exists quarterUDF( dates string, name string) row format delimited fields terminated by ','; load data local inpath '/XX/udfdata.csv' overwri

2021-03-28 10:59:26 214

原创 Cassandra快速上手

Cassandra1.特点介绍面向列的NoSQL数据库有HBase。存储jsaon文本的NoSQL有 MongoDB。存储key-value键值对的有Redis。关系型数据库：非关系型数据库：Cassandra是NoSQL数据库 , 是一个面向列的列存储数据库，特点如下：可以线性扩展, 通过增加群集中的节点数量提高吞吐量每个节点都有相同数据的副本,可容错, 每个节点是独立的，同时与其他节点互连。集群中的所有节点都扮演着相同的角色，每个节点都可以接受读取和写入请求支持事务，诸如原子性，

2021-03-25 11:29:19 250

原创快速上手Flume？看这篇就够了

Flume数据采集文章目录Flume数据采集1.基本概念特点安装配置Agent2.Agent组件及应用任务1任务2任务33.通道3.1 组成3.2 拦截器任务1任务23.3 Channel选择器任务1：复制选择器的使用3.4 Sink处理器任务14.常见的Agent配置方案方案1：采集新增source到logger方案2：从Avro端口采集数据到logger方案3：收集文件后输出到Avro指定端口，另一台机器从该端口读取，并输出logger。方案4:两台服务器收集实时产生的日志，汇总到第三台服务器的HDF

2021-03-22 15:12:46 308 1

原创关于Kafka，你需要知道的都在这

文章目录1.消息系统消息队列发布订阅模式kafka架构一致性原则消费者分配策略文件存储结构常见问题2.安装配置Kafka常用操作3.开发环境API1.ProducerAPI：在windows端发送消息，指定partition接收2.ConsumerAPI：在Linux端发送数据到指定partition，windows端接收1.消息系统消息队列异步通信实现削峰操作解决生产者，消费者处理消息不一致发布订阅模式消费者主动拉取消息（kafka）缺点：若队列中没有消息，消费者任然会不

2021-03-22 14:58:27 143

原创 Hadoop基础知识——MapReduce篇

1 原理及组成Client：用户编写的MapReduce程序通过Client提交到JobTracker端；用户可通过Client提供的一些接口查看作业运行状态JobTracker：负责资源监控和作业调度，JobTracker 监控所有TaskTracker与Job的健康状况，一旦发现失败，就将相应的任务转移到其他节点。JobTracker 会跟踪任务的执行进度、资源使用量等信息，并将这些信息告诉任务调度器（TaskScheduler），而调度器会在资源出现空闲时，选择合适的任务去使用这些资源TaskT

2021-03-19 09:45:21 316

原创一些conda的操作，记录一下

conda create -n 环境名 python=3：新建一个环境conda info --envs ：列出所有存在的环境activate 环境名：激活环境conda remove -n 环境名 --all：删除环境

2021-03-17 16:20:10 48

原创使用python连接hive（亲测有用~）

1.在conda中安装包pip install saslpip install thriftpip install thrift-saslpip install PyHive其中在安装sasl时发生了错误，在https://www.lfd.uci.edu/~gohlke/pythonlibs/#sasl中找到对应系统版本个python版本的下载whl文件并安装（whl文件直接到文件目录pip install即可）2.启动远程连接服务在Linux端启动Hadoop并在任意目录下输入：hive

2021-03-17 16:13:52 5173

原创 Hadoop基础知识——HDFS篇

1.HDFS1.1 原理及组成NameNode：管理文件系统的namespace，这些信息以镜像文件（FsImage）和日志文件（EditLog）永久保存在磁盘上。文件与block的映射信息和块所在数据节点的信息保存在内存中，它不是永久保存的，系统重启时会消失。DataNode：负责存储client发来的数据块block；执行数据块的读写操作[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eEein5T0-1615882424223)(C:\Users\JiQT\Ap

2021-03-16 16:16:52 264

TA关注的人

jqttqj的博客

原创 Spark-Streaming整合Kafka实现wordcount

原创 Hive——用户自定义函数(UDF)的实现

原创 Cassandra快速上手

原创快速上手Flume？看这篇就够了

原创关于Kafka，你需要知道的都在这

原创 Hadoop基础知识——MapReduce篇

原创一些conda的操作，记录一下

原创使用python连接hive（亲测有用~）

原创 Hadoop基础知识——HDFS篇

原创大数据JAVA相关面试题（持续更新~~~）

原创 Hadoop完全分布式HA集群搭建

apache-phoenix-4.9.0-HBase-1.1-bin.tar.gz

Tableau Desktop Professional 10.5.0 x64.rar

scala如何构建无参辅助构造函数

spark本地跑一个自己写的dbscan算法，数据量稍微大一点就一直卡在这个地方，该怎么办？