大数据
文章平均质量分 60
大数据
For Coding
这个作者很懒,什么都没留下…
展开
-
大数据Hadoop、Hive、Kafka、Hbase、Spark等框架面经
大数据Hadoop、Hive、Kafka、Hbase、Spark等框架面经原创 2021-12-05 15:47:48 · 9755 阅读 · 0 评论 -
大数据Spark面试题
大数据Spark面试题原创 2022-06-08 21:37:00 · 493 阅读 · 1 评论 -
在Centos 7中安装Python3环境
在Centos 7中安装Python3环境原创 2022-06-08 21:04:16 · 495 阅读 · 0 评论 -
Phoenix的快速入门
1Phoenix的快速入门案例:创建一个订单明细表,名为ORDER_DTL,字段如下:1.1 创建表基本语法:CREATE TABLE IF NOT EXISTS 表名 ( ROWKEY名称 数据类型 PRIMARY KEY 列蔟名.列名1 数据类型 NOT NULL, 列蔟名.列名2 数据类型 NOT NULL, 列蔟名.列名3 数据类型);订单明细表创表语句:大写:create table if not exists ORDER_DTL( ID varchar pr原创 2022-03-03 15:18:54 · 2765 阅读 · 0 评论 -
大数据-Pulsar的常用命令
1 Pulsar的常用命令1.1 client客户端Pulsar 的 Local模式的基本使用:(1)生产数据bin/pulsar-client produce my-topic --messages “hello-pulsar”说明:向my-topic这个topic生产数据,内容为“hello-pulsar”,如果topic不存在,pulsar会自动创建;(2)消费数据bin/pulsar-client consume my-topic -s “first-subscription”说明:原创 2022-02-28 10:06:44 · 4956 阅读 · 0 评论 -
Zookeeper的常见面试题
1 Zookeeper1.1 Zookeeper基本概念Zookeeper作为一个优秀高效且可靠的分布式协调框架,ZooKeeper 在解决分布式数据一致性问题时并没有直接使用Paxos算法 ,而是专门定制了一致性协议叫做 ZAB(ZooKeeper Automic Broadcast) 原子广播协议,该协议能够很好地支持 崩溃恢复 ;一:Zookeeper应用场景统一命名服务、统一配置管理、统一集群管理、服务器节点动态上下线、软负载均衡等。(1)统一配置管理①分布式环境下,配置文件同步非常常原创 2022-02-22 20:12:04 · 2417 阅读 · 1 评论 -
Redis内存数据库面经
Redis数据库1基本概念Redis本质上是一个Key-Value类型的内存数据库,整个数据库统统加载在内存当中进行操作,定期通过异步操作把数据库中的数据flush到硬盘上进行保存,因为是纯内存操作,所以Redis的性能非常出色,每秒可以处理超过10万次读写操作。Redis的主要缺点是数据库容量受到物理内存的限制,不能用作海量数据的高性能读写,因此Redis适合的场景主要局限在较小数据量的高性能操作和运算上。2 Redis支持哪几种数据类型?string(字符串),hash(哈希),list(列表)原创 2022-01-07 18:54:11 · 661 阅读 · 0 评论 -
大数据组件Impala常见面试题总结
2.13.1 什么是Impala?Impala是cloudera提供的一款高效率的Sql查询工具,提供实时的查询效果,官方测试性能比Hive快10到100倍,其Sql查询比SparkSql还要更加快速,号称是当前大数据领域最快的查询Sql工具;Impala是基于Hive并使用内存进行计算,兼顾数据仓库,具有实时,批处理,多并发等优点;2.13.2 Impala与Hive的区别(1)相同点① Impala与Hive都是构建在Hadoop之上的数据查询工具各有不同的侧重适应面,但从客户端使用来看,I原创 2021-08-05 16:23:09 · 657 阅读 · 0 评论 -
Hive中的常用的日期函数
Hive中的日期函数 to_date(string timestamp)**:返回时间字符串中的日期部分, 如to_date('1970-01-01 00:00:00')='1970-01-01' current_date**:返回当前日期 year(date)**:返回日期date的年,类型为int 如year('2019-01-01')=2019 month(date)**:返回日期date的月,类型为int, 如month('2019-01-01')=1 day(date)*原创 2021-06-09 10:46:32 · 2438 阅读 · 0 评论 -
大数据-Zookeeper
Zookeeper 快速入门1、Zookeeper的概念Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目,多用作为集群提供服务的中间件。2、Zookeeper的工作机制zookeeper从设计模式角度来理解,是一个基于观察者设计模式的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应。3、Zookeeper的特点(1)Zo原创 2020-05-11 09:57:41 · 123 阅读 · 0 评论 -
大数据-Flume
Flume的快速入门1、什么是FlumeFlume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。2、Flume的作用 总结:Flume最主要的作用:实时读取服务器本地磁盘的数据,将数据写入到HDFS3、Flume的基本架构4、Flume架构中的组件4.1 AgentAgent 是一个 JVM 进程,它以事件的形式将数据从源头送至目的。Agent 主要有 3 个部分组成,Source、Channel原创 2020-05-11 09:09:01 · 164 阅读 · 0 评论 -
centos6.8 hadoop集群的搭建
centos6.8 hadoop集群的搭建从零开始搭集群安装好linux/boot 200M/swap 2g/ 剩余*安装VMTools关闭防火墙sudo service iptables stopsudo chkconfig iptables off设置静态IP,改主机名编辑vim /etc/sysconfig/network-scripts/ifcfg-e...原创 2020-05-07 00:10:18 · 232 阅读 · 0 评论 -
MapReduce中的数据压缩案例实践
代码实现import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileSystem;import org.apac...原创 2020-05-02 15:08:28 · 160 阅读 · 0 评论 -
大数据MapReduce-数据清洗ETL案例实践
数据清洗ETL代码实现package com.it.lkw.etl;public class LogBean { private String remote_addr;// 记录客户端的ip地址 private String remote_user;// 记录客户端用户名称,忽略属性"-" private String time_local;// 记录访问时间与时区...原创 2020-05-02 14:31:08 · 563 阅读 · 0 评论 -
大数据的MapReduce-WordCount案例
大数据的MapReduce-WordCount案例代码实现import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import ...原创 2020-04-23 21:02:23 · 176 阅读 · 0 评论