大数据
文章平均质量分 63
大数据开发知识点整理
Coder_Cjp
这个作者很懒,什么都没留下…
展开
-
Spark知识点整理(二)——SparkSQL部分
1.SparkSQL概述(1) 定义:SparkSQL是基于SparkCore专门为模块化计算设计的模块(2) 功能:提供SQL和DSL开发接口,将SQL或者DSL语句转换为SparkCore程序,实现结构化的数据处理(3) 特点① Integrated:集成了大多数的开发接口DSL:函数式编程实现开发,可使用DSL函数、RDD函数以及SQL关键字形成的函数SQL:使用SQL语句编程开发② Uniform Data Access:统一化的数据访问封装了常用的所有数据源读写接口,文原创 2021-07-20 19:40:16 · 571 阅读 · 1 评论 -
大数据中常用端口号总结
常用端口汇总Hadoop常用端口50070:HDFS WEB UI端口8020 : 高可用的HDFS RPC端口9000 : 非高可用的HDFS RPC端口8088 : Yarn 的WEB UI 接口8485 : JournalNode 的RPC端口8019 : 高可用模式ZKFC端口19888:jobhistory WEB UI端口Hive常用端口9083 : metastore服务默认监听端口 10000 : Hive 的JDBC端口,工作中也可能是10001原创 2021-07-18 10:15:05 · 1028 阅读 · 0 评论 -
经典案例Wordcount——Spark版(Sparkcore/SparkDSL/SparkSQL)
数据(文章结尾附pom依赖)java scala python scala scala javahadoop spark hadoop spark spark mapreduce spark spark hivehive spark hadoop mapreduce sparkspark hive sql sql spark hive hive sparkhdfs hdfs mapreduce mapreduce spark hivesparkcore版import org.apache原创 2021-07-16 21:01:19 · 330 阅读 · 0 评论 -
Spark知识点整理(一)——SparkCore部分
1.分布式计算引擎的发展(1) 第一代:MapReduce应用:传统的离线计算缺点:基于磁盘存储,读写性能差,灵活性差(2) 第二代:Tez、Storm应用:离线计算缺点:Tez基于MR做了颗粒度拆分,提高了灵活性,但还是基于磁盘,读写性能没有改善Storm应用于实时计算(3) 第三代:Spark离线+实时:lambda架构目前在工作中主要使用的离线计算引擎(4) 第四代:Flink所有计算全部都是通过实时来实现的:Kappa架构目前在工作中主要使用实时计算引原创 2021-07-16 21:05:50 · 690 阅读 · 3 评论 -
经典案例Wordcount——Java mapreduce版(内部类、外部类)和Scala版对比
数据统计以下数据中每个单词出现的次数hello javahello scalahello helloworld worldhadoop hadoophello worldhello flumehadoop hivehive kafkaflume stormhive oozie原创 2021-07-09 11:02:31 · 163 阅读 · 0 评论 -
SQL练习题(3)
1.使用SQL根据表A,表B 计算出表C:数据附件:a表2019/1/1 742019/1/2 542019/1/3 192019/1/6 842019/1/7 22019/1/8 782019/1/9 192019/1/10 95--建表导入数据create table tb_a(s_date string,v1 int) row format delimited fields terminated by '\t';vim /root/aaa/tb_a.txt;load原创 2021-07-08 10:22:47 · 733 阅读 · 0 评论 -
kafka知识点整理
1.消息队列(MQ)(1)什么是消息队列?官方定义:消息队列是一种异步的服务间通信方式,是分布式系统中重要的组件,主要解决应用耦合,异步消息,流量削锋等问题,实现高性能,高可用,可伸缩和最终一致性架构。简单点说:消息队列MQ用于实现两个系统之间或者两个模块之间传递消息数据时,实现数据缓存(2)功能:基于队列的方式,实现消息传递的数据缓存队列的特点:顺序,先进先出(3)特点①优点:解耦、实现最终一致性、提高高并发的性能②缺点:运维更加麻烦,安全性保障更加繁琐,必须保证生产数据和原创 2021-07-02 10:02:47 · 118 阅读 · 0 评论 -
Redis(配思维导图)
思维导图:1.RDBMS与NOSQL的区别RDBMS:关系型数据库管理系统应用:业务性数据存储特点:体现数据之间的关系,支持完善事务,业务稳定且安全,数据量小的情况下性能较好NOSQL:非关系型数据库应用:高并发情景下的数据缓存和数据存储特点:读写速度特别快,并发量高,但事务支持不完善,稳定性和安全性较差2.Redis的功能和应用场景定义:基于内存的分布式的NoSQL数据库功能:提供高性能高并发的数据读写特点:①.基于C语言开发,与硬件的交互性较好②.基于原创 2021-07-01 21:13:13 · 78 阅读 · 0 评论 -
HQL练习题(2)
有三份源数据文件,如下所示,请根据需求,编写对对那个的HQL语句。文件1: 学生表student <学号sid,姓名sname,性别ssex,年龄sage,系department>95001,李勇,男,20,CS95002,刘晨,女,19,IS95003,王敏,女,22,MA95004,张立,男,19,IS95005,刘刚,男,18,MA95006,赵丽,女,20,CS文件2: 成绩表score <学生编号sid,课程编号cid,成绩sscore>95001,1,8原创 2021-06-30 18:11:54 · 1525 阅读 · 0 评论 -
HQL练习题(1)
题目数据CREATE table Student(SId string,Sname string,Sage string,Ssex string);insert into Student values('01' , '赵雷' , '1990-01-01' , '男');insert into Student values('02' , '钱电' , '1990-12-21' , '男');insert into Student values('03' , '孙风' , '1990-12-20' ,原创 2021-06-30 17:54:11 · 199 阅读 · 0 评论 -
分布式NOSQL数据库--Hbase相关概念
1.HBASE的功能和应用场景是什么?★设计思想:将刚产生的数据写入分布式内存 ,内存存储达到一定阈值,将内存中的数据写入分布式磁盘【HDFS】(1) 功能:对大数据量实现分布式的,高并发的和高性能的实时随机的存储(读写)(2) 应用:大数据量、高性能、高并发、按列存储、持久化大数据数据库存储(结构化或者半结构化)2.为什么HBASE可以实现读写很快和大数据量存储?(1) 读写快:基于内存读写,达到实时效果(2) 大数据量:基于分布式磁盘存储(3) HBASE:分布式内存 + 分布原创 2021-06-29 21:37:50 · 150 阅读 · 2 评论 -
虚拟机连接不上解决方案
问题:当你连接不上虚拟机,用ifconfig查看网络信息发现只有以下信息[root@node1 ~]# ifconfiglo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536 inet 127.0.0.1 netmask 255.0.0.0 inet6 ::1 prefixlen 128 scopeid 0x10<host> loop txqueuelen 1000 (Local Lo原创 2021-06-16 21:09:13 · 2086 阅读 · 0 评论 -
数仓分析之拉链表
拉链表是什么?**作用**:存储所有数据的状态,通过时间来标记数据的不同状态,可以通过时间来获取任意的状态数据。**本质**:通过增量列(两个时间标记列)来标记数据的历史状态和最新 时间标记列1:startTime,状态开始时间 时间标记列2:endTime,状态结束时间,最新更新的状态的结束时间默认为:9999-12-31如何构建拉链表?**构建流程**: 第一步:增量采集,将更新的数据放入更新表(update)中 第二步: 1.(合并)将更新表中的数据以union all行合并的方原创 2021-06-15 15:54:01 · 205 阅读 · 2 评论 -
数仓分析中的三种内存不足及解决方案
1.堆内存不足现象:运行失败报错:Java Heap Space解决方案: 调整堆内存大小 --调整MapTask内存 set mapreduce.map.java.opts=-Xmx4000m; set mapreduce.map.memory.mb=4096; --调整ReduceTask内存 set mapreduce.reduce.java.opts=-Xmx6000m; set mapreduce.reduce.memory.mb=6096;2.原创 2021-06-11 17:58:44 · 1353 阅读 · 0 评论 -
hadoop集群同步时间
由于大数据中,集群对时间要求很高,所以集群内主机要经常同步时间(包括时区的同步)。一、常用的手动进行时间的同步date -s “2017-03-03 03:03:03”或者网络同步:yum install ntpdatentpdate cn.pool.ntp.org二、还可以进行如下的设置:1、yum install ntp2、vi /etc/ntp.conf修改如下部分:server 58.220.207.226 iburstserver 47.92.108.218 ibursts原创 2021-06-10 19:52:15 · 111 阅读 · 0 评论 -
数据采集工具:Flume和sqoop
1.flume1.1.功能:实时采集分布式数据流1.2.应用采集实时文件和网络数据流1.3. flume的基本组成:Agent(source->channel->sink)一个Agent就是一个Flume程序1.3.1 source(采集):数据监听,新数据一产生就立即采集,并且将每一行数据封装成一个Event对象发给channel注:Event:数据流传输时最小的封装单元,每行数据封装成一个Event常用source分类:1.exec source 作用:原创 2021-06-15 17:41:53 · 726 阅读 · 8 评论 -
数据仓库设计概论
数仓设计概论1.OLTP与OLAP的应用和区别?OLTP应用:联机事务处理,满足业务数据的存储特点:数据量相对较小、性能快、需要满足事务工具:数据库管理工具,MySQL、OracleOLAP应用:联机分析处理,满足基于数据处理的数据分析存储和管理特点:数据量相对较大、性能相对可以慢一些、没有事务性需求工具:数据仓库管理工具,Hive2.数据仓库概述2.1 功能:为了满足OLAP(联机分析处理)场景下的数据管理(存储、处理)需求存储:管理,将公司所有数据进行统一原创 2021-06-16 17:10:20 · 283 阅读 · 0 评论