大数据
文章平均质量分 75
晚点吧
。。。。点
展开
-
MapReduce wordcount
java 实现mapreducer 的 wordcount案例原创 2021-12-01 00:21:40 · 726 阅读 · 0 评论 -
Kafka
Kafka简介 一、概述 Kafka是LinkedIn(领英)开发后来贡献给了Apache的一套纯粹的发布订阅模式的、分布式的实时流消息队列 Kafka的特征: 发布订阅消息流 允许存储消息流并且提供了容错机制 实时处理消息流 Kafka的应用场景: 能够在系统或者应用之间,构建可靠的、实时的用于获取数据流的管道 能够构建一个转化或者处理数据流的应用 Kafka会接收到的数据存储到本地磁盘上,而且单节点的Kafka的吞吐量是60M/s~100M/s,Kafka底层采用"零拷原创 2021-04-07 23:50:29 · 353 阅读 · 0 评论 -
elasticsearch命令
1.实现搜索结构 1.1准备索引文件 1.2提供搜索服务 2.lucene缺点不便之处 2.1lucene是java语言 对于其他想要使用lucene实现全文检索功能的语言.不友好 2.2lucene本身没有实现分布式 索引文件应该被切分成多分存储到不同服务器中,行程分布式,并且每一份数据都要保证高可用,还有分片主从复制. 3.elasticsearch引入搜索服务 3.1介绍 elasticsearch是一个底层封装了lucene实现的全文检索功能的搜索服务(web应用...原创 2021-04-07 23:38:45 · 134 阅读 · 0 评论 -
redis的基础命令
redis概括 1.定义 redis是一个,nosql,key-value,非关系型的,内存运行,单进程单线程的,可持久化,支持分布式的,实现缓存,数据库技术。 1.1nosql Not Only Structured query language,不仅结构化查询语言。 SQL结构化查询语言。说明redis可以存储非结构化数据。 1.2key-value redis存储数据的基本结构 键值对 key-value-一条数据。非结构化数据的一种处理结构方式,很多技术在存储非结构...原创 2021-04-07 23:21:59 · 272 阅读 · 0 评论 -
rabbitmq
2.消息队列 提升单位时间并发,一种消峰的处理 2.1消息队列历史 早期是为了解决通信强耦合 在这种通信中,任何一个步骤出现问题,都会造成通信重新执行一遍. 可以通过引入队列的概念,将通信过程,解耦. 随着消息队列的使用,不断发展,壮大,可以处理更多的业务逻辑,比如消峰(高并发消除峰值) 有的游戏服务器为了防止连接超过服务器处理上限,丢失玩家,做一个派对,您稍等,服务器爆满,您现在排在3789位. 2.2rabbitmq启动访问web 任何一个...原创 2021-04-07 22:35:39 · 703 阅读 · 0 评论 -
hadoop 完全分布式安装
一、安装步骤 关闭防火墙 修改主机名 配置hosts文件,将需要搭建集群的主机全部配置到hosts文件中 192.168.32.138hadoop01 192.168.32.139hadoop02 192.168.32.140hadoop03 配置免密登录 安装JDK 安装Zookeeper 上传或者下载Hadoop的安装包并解压 进入Hadoop的安装目录的子目录etc/hadoop/下 编辑hadoop-env.sh,并且重新生效 编辑core-site.xml,添加如下内容: &l...原创 2021-03-04 01:48:20 · 369 阅读 · 2 评论 -
hive 的mysql元数据配置
下载MySQL的驱动包 cd /home/software/apache-hive-1.2.0-bin/lib wget http://bj-yzjd.ufile.cn-north-02.ucloud.cn/mysql-connector-java-5.1.38-bin.jar 编辑hive-site.xml cd …/conf vim hive-site.xml 添加: javax.jdo.option.ConnectionURL jdbc:mysql://hadoop01:3306/hive?cr.原创 2021-03-04 01:41:06 · 98 阅读 · 1 评论