自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 资源 (3)
  • 收藏
  • 关注

原创 大数据开发面试题整理——java部分

(1)Java支持的数据类型有哪些?什么是自动拆装箱①Java支持8种基本数据类型:byte short int long float double boolean char②自动装箱时Java编译器在基本数据类型和对应的对象包装类型之间做的一个转化,即基本数据类型–>对象包装类型,比如int转化成Integer,反之就是自动拆箱(2)Java的”一次编写,处处运行”是如何实现的?答案:Java程序会被编译成字节码组成的class文件,这些字节码可以运行在任何平台,因此Java是平台独立的。

2021-07-27 21:51:55 1236

原创 Spark知识点整理(二)——SparkSQL部分

1.SparkSQL概述(1) 定义:SparkSQL是基于SparkCore专门为模块化计算设计的模块(2) 功能:提供SQL和DSL开发接口,将SQL或者DSL语句转换为SparkCore程序,实现结构化的数据处理(3) 特点① Integrated:集成了大多数的开发接口DSL:函数式编程实现开发,可使用DSL函数、RDD函数以及SQL关键字形成的函数SQL:使用SQL语句编程开发② Uniform Data Access:统一化的数据访问封装了常用的所有数据源读写接口,文

2021-07-20 19:40:16 579 1

原创 大数据中常用端口号总结

常用端口汇总Hadoop常用端口50070:HDFS WEB UI端口8020 : 高可用的HDFS RPC端口9000 : 非高可用的HDFS RPC端口8088 : Yarn 的WEB UI 接口8485 : JournalNode 的RPC端口8019 : 高可用模式ZKFC端口19888:jobhistory WEB UI端口Hive常用端口9083 : metastore服务默认监听端口 10000 : Hive 的JDBC端口,工作中也可能是10001

2021-07-18 10:15:05 1039

原创 Spark知识点整理(一)——SparkCore部分

1.分布式计算引擎的发展(1) 第一代:MapReduce应用:传统的离线计算缺点:基于磁盘存储,读写性能差,灵活性差(2) 第二代:Tez、Storm应用:离线计算缺点:Tez基于MR做了颗粒度拆分,提高了灵活性,但还是基于磁盘,读写性能没有改善Storm应用于实时计算(3) 第三代:Spark离线+实时:lambda架构目前在工作中主要使用的离线计算引擎(4) 第四代:Flink所有计算全部都是通过实时来实现的:Kappa架构目前在工作中主要使用实时计算引

2021-07-16 21:05:50 709 3

原创 经典案例Wordcount——Spark版(Sparkcore/SparkDSL/SparkSQL)

数据(文章结尾附pom依赖)java scala python scala scala javahadoop spark hadoop spark spark mapreduce spark spark hivehive spark hadoop mapreduce sparkspark hive sql sql spark hive hive sparkhdfs hdfs mapreduce mapreduce spark hivesparkcore版import org.apache

2021-07-16 21:01:19 346

原创 经典案例Wordcount——Java mapreduce版(内部类、外部类)和Scala版对比

数据统计以下数据中每个单词出现的次数hello javahello scalahello helloworld worldhadoop hadoophello worldhello flumehadoop hivehive kafkaflume stormhive oozie

2021-07-09 11:02:31 167

原创 SQL练习题(3)

1.使用SQL根据表A,表B 计算出表C:数据附件:a表2019/1/1 742019/1/2 542019/1/3 192019/1/6 842019/1/7 22019/1/8 782019/1/9 192019/1/10 95--建表导入数据create table tb_a(s_date string,v1 int) row format delimited fields terminated by '\t';vim /root/aaa/tb_a.txt;load

2021-07-08 10:22:47 747

原创 kafka知识点整理

1.消息队列(MQ)(1)什么是消息队列?官方定义:消息队列是一种异步的服务间通信方式,是分布式系统中重要的组件,主要解决应用耦合,异步消息,流量削锋等问题,实现高性能,高可用,可伸缩和最终一致性架构。简单点说:消息队列MQ用于实现两个系统之间或者两个模块之间传递消息数据时,实现数据缓存(2)功能:基于队列的方式,实现消息传递的数据缓存队列的特点:顺序,先进先出(3)特点①优点:解耦、实现最终一致性、提高高并发的性能②缺点:运维更加麻烦,安全性保障更加繁琐,必须保证生产数据和

2021-07-02 10:02:47 121

原创 Redis(配思维导图)

思维导图:1.RDBMS与NOSQL的区别RDBMS:关系型数据库管理系统应用:业务性数据存储特点:体现数据之间的关系,支持完善事务,业务稳定且安全,数据量小的情况下性能较好NOSQL:非关系型数据库应用:高并发情景下的数据缓存和数据存储特点:读写速度特别快,并发量高,但事务支持不完善,稳定性和安全性较差2.Redis的功能和应用场景定义:基于内存的分布式的NoSQL数据库功能:提供高性能高并发的数据读写特点:①.基于C语言开发,与硬件的交互性较好②.基于

2021-07-01 21:13:13 81

原创 HQL练习题(2)

有三份源数据文件,如下所示,请根据需求,编写对对那个的HQL语句。文件1: 学生表student <学号sid,姓名sname,性别ssex,年龄sage,系department>95001,李勇,男,20,CS95002,刘晨,女,19,IS95003,王敏,女,22,MA95004,张立,男,19,IS95005,刘刚,男,18,MA95006,赵丽,女,20,CS文件2: 成绩表score <学生编号sid,课程编号cid,成绩sscore>95001,1,8

2021-06-30 18:11:54 1540

原创 HQL练习题(1)

题目数据CREATE table Student(SId string,Sname string,Sage string,Ssex string);insert into Student values('01' , '赵雷' , '1990-01-01' , '男');insert into Student values('02' , '钱电' , '1990-12-21' , '男');insert into Student values('03' , '孙风' , '1990-12-20' ,

2021-06-30 17:54:11 200

原创 分布式NOSQL数据库--Hbase相关概念

1.HBASE的功能和应用场景是什么?★设计思想:将刚产生的数据写入分布式内存 ,内存存储达到一定阈值,将内存中的数据写入分布式磁盘【HDFS】(1) 功能:对大数据量实现分布式的,高并发的和高性能的实时随机的存储(读写)(2) 应用:大数据量、高性能、高并发、按列存储、持久化大数据数据库存储(结构化或者半结构化)2.为什么HBASE可以实现读写很快和大数据量存储?(1) 读写快:基于内存读写,达到实时效果(2) 大数据量:基于分布式磁盘存储(3) HBASE:分布式内存 + 分布

2021-06-29 21:37:50 152 2

原创 虚拟机连接不上解决方案

问题:当你连接不上虚拟机,用ifconfig查看网络信息发现只有以下信息[root@node1 ~]# ifconfiglo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536 inet 127.0.0.1 netmask 255.0.0.0 inet6 ::1 prefixlen 128 scopeid 0x10<host> loop txqueuelen 1000 (Local Lo

2021-06-16 21:09:13 2114

原创 数据仓库设计概论

数仓设计概论1.OLTP与OLAP的应用和区别?OLTP应用:联机事务处理,满足业务数据的存储特点:数据量相对较小、性能快、需要满足事务工具:数据库管理工具,MySQL、OracleOLAP应用:联机分析处理,满足基于数据处理的数据分析存储和管理特点:数据量相对较大、性能相对可以慢一些、没有事务性需求工具:数据仓库管理工具,Hive2.数据仓库概述2.1 功能:为了满足OLAP(联机分析处理)场景下的数据管理(存储、处理)需求存储:管理,将公司所有数据进行统一

2021-06-16 17:10:20 285

原创 数据采集工具:Flume和sqoop

1.flume1.1.功能:实时采集分布式数据流1.2.应用采集实时文件和网络数据流1.3. flume的基本组成:Agent(source->channel->sink)一个Agent就是一个Flume程序1.3.1 source(采集):数据监听,新数据一产生就立即采集,并且将每一行数据封装成一个Event对象发给channel注:Event:数据流传输时最小的封装单元,每行数据封装成一个Event常用source分类:1.exec source 作用:

2021-06-15 17:41:53 739 8

原创 数仓分析之拉链表

拉链表是什么?**作用**:存储所有数据的状态,通过时间来标记数据的不同状态,可以通过时间来获取任意的状态数据。**本质**:通过增量列(两个时间标记列)来标记数据的历史状态和最新 时间标记列1:startTime,状态开始时间 时间标记列2:endTime,状态结束时间,最新更新的状态的结束时间默认为:9999-12-31如何构建拉链表?**构建流程**: 第一步:增量采集,将更新的数据放入更新表(update)中 第二步: 1.(合并)将更新表中的数据以union all行合并的方

2021-06-15 15:54:01 208 2

原创 数仓分析中的三种内存不足及解决方案

1.堆内存不足现象:运行失败报错:Java Heap Space解决方案: 调整堆内存大小 --调整MapTask内存 set mapreduce.map.java.opts=-Xmx4000m; set mapreduce.map.memory.mb=4096; --调整ReduceTask内存 set mapreduce.reduce.java.opts=-Xmx6000m; set mapreduce.reduce.memory.mb=6096;2.

2021-06-11 17:58:44 1362

原创 hadoop集群同步时间

由于大数据中,集群对时间要求很高,所以集群内主机要经常同步时间(包括时区的同步)。一、常用的手动进行时间的同步date -s “2017-03-03 03:03:03”或者网络同步:yum install ntpdatentpdate cn.pool.ntp.org二、还可以进行如下的设置:1、yum install ntp2、vi /etc/ntp.conf修改如下部分:server 58.220.207.226 iburstserver 47.92.108.218 ibursts

2021-06-10 19:52:15 115

原创 hadoop学习整理——mapreduce数据分析案例(3)--topN

数据样例:数据样例: xx(每次的考试分数 次数不固定)课程 姓名 xx xx xx xxcomputer,huangxiaoming,85,86,41,75,93,42,85computer,xuzheng,54,52,86,91,42computer,huangbo,85,42,96,38english,zhaobenshan,54,52,86,91,42,85,75english,liuyifei,85,41,75,21,85,96,14algorithm,liuyifei

2021-06-08 21:57:48 515 2

原创 hadoop学习整理——mapreduce数据分析案例(2)

题目:现有一张emp表,字段分别为员工编号,员工姓名,工作,管理编号,生日,工资,备注,部门编号数据:7369,SMITH,CLERK,7902,1980/12/17,800,,207499,ALLEN,SALESMAN,7698,1981/2/20,1600,300,307521,WARD,SALESMAN,7698,1981/2/22,1250,500,307566,JONES,MANAGER,7839,1981/4/2,2975,,207654,MARTIN,SALESMAN,7698

2021-06-07 20:27:36 684 6

原创 hadoop学习整理——mapreduce数据分析案例(1)

有一份源数据文件,描述的是某餐饮公司各个分店在2019年和2020年的营业数据,源数据如下,请根据需求,编写MapReduce代码。劲松店,600,350,2019年劲松店,800,250,2020年王府井店,1900,600,2020年王府井店,2000,900,2019年回龙观店,6700,1800,2020年西单店,3000,1000,2019年西单店,5000,1000,2020年,3500,1000,2020年牡丹园店,3800,1400,2020年牡丹园店,

2021-06-07 18:03:27 2880 4

原创 大数据基础:HQL 入门必练50题_3

大数据基础:HQL 入门必练50题(31-50题)31、查询1990年出生的学生名单:--方法一:以出生时间前4位作为年过滤select sname,substr(sbirth,1,4) year from student group by sname,substr(sbirth,1,4)having year = 1990;--方法二:直接有year函数提取出生年过滤select sname,year(sbirth) year from student group by sname,year

2021-06-05 12:10:23 244 2

原创 大数据基础:HQL 入门必练50题_2

大数据基础:HQL 入门必练50题(16-30题)16、检索"01"课程分数小于60,按分数降序排列的学生信息:select t1.sid,sname,sbirth,ssex,t2.sscore from student t1inner join(select sid,sscore from score where cid = 1 and sscore < 60) t2on t1.sid = t2.sidorder by t2.sscore desc;17、按平均成绩从高到低显示所有学

2021-06-05 11:40:32 280

原创 大数据基础:HQL 入门必练50题_1

Hive sql入门必练50题

2021-06-03 16:04:09 405

大数据开发英语单词大全.xlsx

大数据开发英语单词大全.xlsx

2021-06-15

java阶段编程单词大全.txt

java阶段编程单词大全.txt

2021-06-15

HQL常用函数大全.docx

适合大数据初学者,数据分析行业工作者登需要使用hive SQL的人使用

2021-06-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除