自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 资源 (3)
  • 收藏
  • 关注

原创 数据仓库哈哈

该层不需要一开始就设计,可以等DWD层设计的差不多了,或是写着写着发现DWD中有好多表都用到了共通的字段,有大量冗余数据,那么就可以将这部分共通的数据提取成一个表。shuffle操作会将完整的计算流程一分为二,会分为2个阶段(Stage),前面一个阶段称之为Map阶段,后面的阶段称之为Reduce阶段,(3)ODS层表名的命名规范为:ods_表名_单分区增量全量标识(inc/full)。shuffle中前一个阶段的任务不执行完,后面的阶段的任务不允许执行的,

2024-07-09 21:29:10 1065 1

原创 【无标题】维度模型:

维度表:用于保存分析统计数据的角度的数据,这个数据主要用于分析。事实表:用于保存行为所产生的数据,这个数据主要用于统计。事实 :行为所产生的事情(数据)维度:分析数据的角度(状态)

2024-07-09 20:39:02 217

原创 ER模型理论和三范式

ER模型、三范式理论图解

2024-07-09 20:00:27 364

原创 Hive On Spark语法

但 不安全,所以会再写在binlog(顺写 json)文件中,备份一下,再写到datafile(随机写入)中。当修改数据时,会写到内存中,操作系统会周期性的写到磁盘,mysql中的数据是写在磁盘中的。

2024-07-01 13:56:06 352

原创 hadoop各组件工作流程分析

conbineTextInputFormat切片机制。将大量的小文件合并成一个大的Map Task的过程。虚拟存储过程 切片过程。

2024-05-16 21:35:19 948

原创 MapReduce代码

wordcount 流量统计

2024-05-14 21:30:47 731

原创 Hadoop工程配置

pom<dependencies><!-- hdoop需要的依赖 --><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>3.3.4</version></dependency><!-- 单元测试

2024-05-13 16:38:01 190

原创 hadoop生态圈集群搭建(持续更新240606)

share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar : jar包路径。配置:vim /opt/module/hadoop-3.3.4/etc/hadoop/mapred-site.xml。在hadoop102(因为namenode在这个节点上-格式化后产生的文件是给namenode使用的)上格式化。配置:vim /opt/module/hadoop-3.3.4/etc/hadoop/yarn-site.xml。会发现原来错误的环境变量还在。

2024-05-12 14:08:14 829 2

原创 VMware与CentOS的安装

软件安装

2024-05-07 21:18:15 1067 1

原创 Maven

自动化构建工具:Java平台的项目构建和依赖管理。如jar包管理,你只需要在你的项目中以坐标的方式依赖一个jar包,Maven就会自动从中央仓库进行下载,并同时下载这个jar包所依赖的其他jar包——规范、完整、准确!

2024-05-07 20:36:32 877

原创 【MySQL学习】

*1.MySQL作用:①持久化保存数据 ②对数据可以更方便的进行增,删,改,查的操作2.概念DB : 数据库DBMS :数据库管理系统(MySQL,Oracle,SQLServer,......)SQL:结构化查询语言(用来操作数据库)3.常见的数据库管理系统 :MySQL,Oracle,SQLServer,......4.SQL的优点:①简单易学 ②所有的关系性数据库全都支持 ③虽然简单但是一种强有力的语言。

2024-04-29 10:41:01 250

原创 大数据_面试题_Java篇集锦

(2)sleep(时间)指定休眠的时间,wait()/wait(时间)可以指定时间也可以无限等待直到notify或notifyAll。finally是try-catch-finally中的一个关键字。(3)sleep()在Thread类中声明的静态方法,wait方法在Object类中声明。finalize :finalize是一个方法名,它是Object类中声明的一个方法,再通过代码去清理JVM以外的内存(不清理就会导致内存泄露-该内存一直在被占用)// 可以:不会改变原来的数据类型-底层做了强转的处理。

2024-04-24 19:01:34 837

原创 JavaSE学习文档(上)

第一代:机器语言第二代:汇编语言第三代:高级语言(java,c,c++,php,.....)JavaSE: 用于应用程序开发(淘汰) + 核心的部分(核心类库)JavaEE: 用于网站开发JavaME: 嵌入式开发(已经淘汰)用于控制代码执行顺序的语句结构称为流程控制语句结构//最大值 - 默认把数组中的第一个元素当成最大值//比较i++) {//遍历数组 不包括第一个if (maxNumber < numbers[i]){//说明maxNumber中的值不是最大的。

2024-04-24 18:58:18 664

原创 JavaSE学习文档(下)异常 常用类(Object Date) 集合(List 泛型 Set Map Collection) 多线程 File类IO流 网络编程 反射 函数式接口 Lambda表达式

JavaSE学习文档(下)第九章 异常9.1 异常概述概述系统如何处理异常异常体系结构9.2 异常演示error演示编译时异常演示运行时异常演示9.3 try-catch-finally格式1格式2格式3jdk1.7开始catch的变化APIcatch后面的异常类型9.4 finally的再说明9.5 throws9.6 throws和try-catch-finally的选择9.6 throw9.10 自定义异常类第十章 常用类10.1 Object类10.2 Object中的APItoStringequa

2024-04-24 18:58:05 663

原创 Java多态 + 排序,好好体会!!!

自然排序,定制排序

2024-04-12 21:30:00 81 1

原创 JDK17安装笔记

环境:软件、程序运行的环境,包括操作系统等变量:用来存储“值”的一个标识符,符号,例如:path变量用来存储各种软件的路径当我们在命令行等地方运行程序时,例如:javac.exe这个程序时,就需要告知操作系统去哪里找这个javac.exe这个程序。这个javac.exe程序在D:\ProgramFiles\Java\jdk-17\bin路径下:操作系统找程序的路径:(1)先看当前路径,例如:C:\Users\final>,下面有没有javac.exe。

2024-04-08 20:04:20 892 1

原创 Python学习笔记Day1

Python的input、elif语法

2024-03-02 13:30:02 131

原创 计算机操作系统-过程性考核总结

2020年操作系统过程1试题一、选择题(每题2分,共20分)1、操作系统是一种( C )。A、应用软件 B、系统硬件C、系统软件D、支援软件2、操作系统是一组( C )。A.文件管理程序 B.中断处理程序C.资源管理程序 D.设备管理程序3、进程从阻塞状态进入就绪状态的原因可能是( C )。A、被选中占有处理机 B、等待某一事件C、等待的事件已发生 D、时间片用完4、进程和程序的本质区别是( D )。A.存储在内存和外存B.顺序和非顺序执行机器指令C.分时使用和独

2020-12-29 11:37:27 2119 2

原创 计算机操作系统-中原工学院复习知识点

第一章 操作系统引论什么是操作系统?操作系统是配置在计算机硬件上的第一层软件,是对硬件系统的首次扩充。操作系统是系统软件操作系统的类型有几个?分别是?每种类型的特点是什么?五种,批处理系统、分时系统、实时系统、网络操作系统、分布式操作系统批处理系统:批处理是指用户将一批作业提交给操作系统后就不再干预,由操作系统控制他们的自动运行。批处理系统不具有交互性,它是为了提高CPU的利用率;特点:多道,在内存中同时存放多个作业,一个时刻只有一个作业运行,这些作业共享CPU和外部设备资源; 成批,用户和他

2020-12-27 17:30:44 5541 3

原创 计算机组成原理-中原工学院大纲+知识点

课本:计算机组成原理-白中英第四版(标题后面的数字是在课本上的页码)其他可参考资源:王道考研-计算机组成原理冯诺依曼这是一种体系,一种存储程序的思想定点数表示范围16某机器字长为16位,若采用定点小数原码表示,则所能表示的数的范围是________;若采用定点小数补码表示,则所能表示的数的范围是____________;若采用定点整数补码表示,则所能表示的数的范围是____________;若采用无符号整数表示,则所能表示的数的范围是____________。答案:-(1-215)~1-215

2020-12-24 21:29:41 1200 3

原创 虚拟机配置好网络后应该

安装基本工具openssh,便于远程上传文件(3)[root@node01 ~]# yum -y install openssh-clients同步时间工具(3) #安装ntpdate工具 [root@node01 ~]# yum -y install ntp ntpdate #设置与网络时间同步 [root@node01 ~]# ntpdate cn.pool.ntp.org #系统时间写入硬件时间 [root@node01 ~]# hwclock --systohc文件上

2020-09-19 14:59:10 220

原创 计算机网络(韩立刚老师主讲笔记)

期末复习第一章 计算机网络概述网络:许多计算机连接在一起(1969)互联网:Internet 许多网络连接在一起(1975)因特网:Internet 全球最大的一个互联网(1983)(TCP/IP)ISP:电信,联通。各自有地址范围。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下双向机房:连接两个运营商。如:联通到电信C/S:P2P:一台主机既是client也是server电路交换:建立连接–电话–释放连接;所以长途电话贵,需跨多个交换机加中继线,适合实时通信;分组交换:分

2020-07-09 18:11:07 1644

原创 数据结构期末考试

1-1链表的每个结点都恰好有一个指针。F解析:也可以有两个1-2用邻接矩阵法存储图,占用的存储空间数只与图中结点个数有关,而与边数无关。T解析:存储边数的位置,不是0就是1.1-3对一棵二叉排序按前序方法遍历得出的结点序列是从小到大的序列。F解析:至少得中序吧~1-4无向图中任何一个边数最少且连通所有顶点的子图都是该无向图的生成树。T1-5若有向图不存在回路,即使不用访问标志位同一结点也不会被访问两次。F解析:一个节点发散很多其他节点,那么一定会访问前一个节点,至少两次。1-6

2020-06-18 02:11:25 2959

原创 Scala&Java对比图

Scala就是Java语言又封装了一遍,在功能和属性上有着很大的联系和升级。

2020-06-14 09:53:54 302

原创 Scala学习笔记

Spark学习笔记

2020-06-11 17:51:48 190

原创 maven项目添加Scala支持

有时候右键灭有Scala Class在线下载插件也出错,如下:那么就是配置出错了,选择File->Settings->Build->Build Tools->Maven红框内的打勾,下面的那个不要选。然后添加Scala 支持。离线安装比较快,下载地址...

2020-06-09 12:40:35 915

原创 线性结构习题及解析

2-1数组A[1…5,1…6]每个元素占5个单元,将其按行优先次序存储在起始地址为1000的连续的内存单元中,则元素A[5,5]的地址为:1120 1125 1140 1145解析:2-2对于顺序存储的长度为N的线性表,访问结点和增加结点的时间复杂度为:...

2020-06-05 09:22:58 8268 4

原创 Data Structure Code Conclusion

数据结构学习what the most important thing is Pointer.堆栈typedef struct Stack *S;struct Stack{ ElementType data[MaxSize]; int top;};S Init(){ S s; s = (struct Stack *)malloc(sizeof(struct Stack)); s->top=-1; return s;}int Pus

2020-06-04 18:23:38 269

原创 词性标注学习第二周19.08.04

词性标注学习第二周19.08.04练习用文本文本 ![在这里插入图片描述](https://img-blog.csdnimg.cn/20190804093242507.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L1NhbmlhbmE=,s...

2019-08-04 10:29:14 269

原创 词法分析与词性标注学习第一周19.07.28

词法分析与词性标注学习第一周19.07.28词法分析与词性标注简介词法分析词性标注个人学习笔记形态分析的一般方法切分方法最大匹配法最少分词法(比较好的分词)工具词法分析与词性标注简介网上摘抄,若要详细的需百度~词法分析词法分析(英语:lexical analysis)是计算机科学中将字符序列转换为单词(Token)序列的过程。进行词法分析的程序或者函数叫作词法分析器(Lexical ana...

2019-07-28 19:46:36 386

57Spark MLlib之分类与聚类.docx

Spark Mllib学习敲代码

2020-07-09

51DStream笔记.docx

仅是我上课用的笔记,链接是官网链接,多看官网,少走弯路。

2020-07-09

大数据实战data.rar

各种格式的文件,可进行项目开发的学习,仅供学习使用,严禁商用!!!数据包括json、txt、csv等等。学习scala,sparkstreaming等时。

2020-06-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除