![](https://img-blog.csdnimg.cn/20190822092140908.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据开发工程师成长记录
本人小白想在专栏里面建立自己的成长过程,给自己一个回忆和记录自己每日的学习日常,也可以给大家一个参考的路线。
蛋蛋淡淡定
我是工程师这个简介够不够。
展开
-
大数据必须了解的hdfs的两大核心和hdfs的元数据合并流程!
点赞关注不迷路,见证自己的成长。hdfs 身为 Hadoop 平台的分布式文件系统,我们今天来看看他的两大核心,和元数据合并流程。文件上传:写数据过程 逻辑切块:在形式、逻辑上的切分,并没有真正的进行切分 只是一个范围的划分 假设文件300M 偏移量的划分 仅仅相当于打了标记 blk01:0-127M blk02:128-255M blk03:2...原创 2020-04-16 21:07:47 · 382 阅读 · 0 评论 -
JDBC连接mysql工具类Util供大家参考
一、JDBC连接工具类(MySQL为例)package com.aura.bigdata.spark.java.uitl;import java.io.IOException;import java.io.InputStream;import java.sql.*;import java.util.*;/** * 工具类 * 所有的连接和资源释放 */public c...原创 2019-11-15 11:55:28 · 1186 阅读 · 0 评论 -
mysql学习之DDL基础练习
1. 数据完整性数据的准确性和可靠性。完整性约束A. 实体完整性实体:记录实体完整性约束保证数据记录之间是准确的(能够唯一标识一个实体)。主键约束: 唯一的,不能为空。 primary key1.添加主键约束create table student(sid int primary key,sname varchar(20));2.添加主键约束create table...原创 2019-11-14 09:44:40 · 649 阅读 · 0 评论 -
mysql的学习过程记录
数据a) 客观事物的符号表示数据量庞大,介质a) 纸 u盘 硬盘 网盘b) 存储数据越来越大,检索难度变大数据库(Database)a) 按照一定数据结构存储数据的仓库数据库管理系统(DBMS)a) 操作管理数据库的一款软件A) 关系型数据管理系统(RDBMS)采用关系模型管理数据。采用二维表格的形式来简化数据关系实现对数据的管理Oracle数据库:oracle公...原创 2019-11-13 11:20:05 · 173 阅读 · 0 评论 -
面试需要掌握的大数据中常见的八种排序java实现!!! 下半部分
这篇接着上一个说:直接上主题,不说废话。**5.希尔排序**传统的插入排序算法在某些场景中存在着一些问题,例如[2,3,4,5,1]这样的一个数组,当我们对其进行插入排序的时候,发现要插入的数字是1,而要想将1插入到最前面,需要经过四个步骤,分别将5、4、3、2后移。所以得出结论:如果较小的数是我们需要进行插入的数,那效率就会比较低。鉴于这种场景的缺陷,希尔排序诞生了,它是插入排序的一种更...原创 2019-08-20 13:50:33 · 241 阅读 · 0 评论 -
面试需要掌握的大数据中常见的八种排序!!! 上半部分
****作为一个新手小白来说,我觉得下面的几种排序理解清楚之后,在你你以后的面试或者技术算法提升上是有很大的帮助的,希望的我这篇文章可以帮助大家多多理解这些算法**1.冒泡排序**冒泡排序(Bubble Sort),是一种计算机科学领域的较简单的排序算法。它重复地走访过要排序的元素列,依次比较两个相邻的元素,如果他们的顺序(如从大到小、首字母从A到Z)错误就把他们交换过来。走访元素的工作...原创 2019-08-20 10:24:33 · 525 阅读 · 0 评论 -
kettle 列转行实际应用场景demo!!!
本文主要记录kettle列转行控件的使用。1、用例脚本create TABLE studentInfo(studentno int,Cname varchar(10),grade int);insert into studentInfo values(2018100,‘语文’,81);insert into studentInfo values(2018100,‘数学’,82);...转载 2019-07-02 14:32:50 · 602 阅读 · 0 评论 -
spark的两大类算子action算子和transformation算子的常用算子的使用用例
Spark的算子的分类从大方向来说,Spark 算子大致可以分为以下两类:1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。2)Action 行动算子:这类算子会触发 Sp...原创 2019-08-02 15:37:22 · 1200 阅读 · 0 评论 -
window本地搭建spark测试环境!
本篇文章也是我参照着网上和自己的一些搭建过程来总结的一些步骤,小白新手大佬勿喷。希望分享一下自己的一下成长过程每天记录一点平常做过的一些事情。一 . 首先我们安装一个软件我们肯定要有它的安装包,我给个网站Apache的一个资源库:http://archive.apache.org/dist/spark/spark-2.2.2/ 这个是下载spark2.2.2版本的,这个版本需要jdk1.8 和 ...原创 2019-07-04 17:42:11 · 1770 阅读 · 0 评论 -
第一天来到新公司的volg (ETL开发工程师)
第一天来到新公司的volg (ETL开发工程师)新的改变首先自我介绍一下,我是一名刚刚大学毕业的程序猿,在大学完了两年,到最后大三一年才开始认真的去学习编程的各种知识,开源框架,看视频代码。现在是大数据时代,我也想跟着潮流,所以我第一份工作就选择了ETL开发,为以后大数据开发做基础铺垫,毕竟现在大数据开发都没公司直接招实习生或刚刚毕业的人。新的工作先说一下今天来公司吧,上午大概就是9点到...原创 2019-06-13 17:17:26 · 2112 阅读 · 4 评论 -
hadoop平台搭建第三集之-基础linux环境配置之mysql安装,本地yum源配置,加上基础软件安装
首先我们要配置本地yum源 ,我们需要我们的系统的ios 文件,这个我们之前是用做装系统的,现在我们要把他挂在在我们的虚拟机上面下面我们看操作步骤:1.临时挂载1、 挂载光驱在常用挂载目录/mnt下创建一个目录cdrom用来进行挂载:mkdir /mnt/cdrom将挂载源设备/dev/cdrom挂载到该挂载点(/mnt/cdrom)上:mount -t iso9660 -o ro /...原创 2019-09-06 15:31:07 · 209 阅读 · 0 评论 -
hadoop平台搭建第四集之-克隆虚拟机并配置三台虚拟机的ssh免密登录准备搭建hadoop的HA平台
上一节我们已经配置好了一台完整的虚拟机,那么我们接下来需要多几台一样的虚拟机来配合我们搭建Hadoop的HA平台,当然我们也可以跟着我之前的步骤再搭建两个一样的,但是这样就很费时间,所以我们vm给我们提供了一个克隆机制,我们只需要克隆两个一样的虚拟机然后改一些配置就可以用了,下面我来带着大家一起完成虚拟机的克隆:首先我们先打开VMware:然后我们右键点击hadoop04 会出现一个窗口-》...原创 2019-09-19 17:55:09 · 802 阅读 · 0 评论 -
hadoop平台搭建第五集之-zookeeper的安装和搭建hadoop的HA平台
首先说明之前的一个配置错误,因为我在配置/etc/sudoers 用户权限文件的时候 chen ALL=(ALL) ALL 字母没有大写,导致sudo命令不能用,在这里通过之前配置的朋友可以看看你的配置是否有问题,修改完成,记得吧sudoers文件权限修改成440用命令 chmod 440 /etc/sudoers这样之前的问题就解决了,然后我们来看下怎么安装ZK和hadoop的HA平台...原创 2019-09-23 15:59:35 · 408 阅读 · 0 评论 -
hadoop平台搭建第二集之-基础linux环境配置的小白教程
接着上一个文章 hadoop平台搭建,之前我们安装好了centos6.7的系统,然后我们进入系统界面我们尽量使用命令行,不要使用图形界面,如果你进入的是图形界面,那么你可以打开命令行工具,输入init 3 就可以临时进图命令行界面,如果想永久修改,可以用 vim /etc/inittab id ->3查看当前系统启动级别: runlevel修改系统启动级别: vim /etc/init...原创 2019-09-03 22:33:56 · 418 阅读 · 0 评论 -
hadoop平台搭建第一集之-基础linux的centos6.7环境搭建的小白教程
hadoop平台搭建之-基础linux的centos6.7环境搭建的小白教程####首先我们要搭建hadoop平台的话至少是需要三台服务器的,但是我们现在没有那么多机器做联系,那么我们就会使用虚拟化技术VM,在window上虚拟出来3台机器,然后这三台机器的操作系统我们这次选择centos6.7版本,首先搭建没有centos6.7版本的iso镜像文件的话可以去http://archive.ker...原创 2019-09-03 16:28:37 · 321 阅读 · 0 评论 -
mysql 索引简介
索引概念、索引模型我们是怎么聊到索引的呢,是因为我提到我们的业务量比较大,每天大概有几百万的新数据生成,于是有了以下对话:面试官:你们每天这么大的数据量,都是保存在关系型数据库中吗?我:是的,我们线上使用的是MySQL数据库面试官:每天几百万数据,一个月就是几千万了,那你们有没有对于查询做一些优化呢?我:我们在数据库中创建了一些索引(我现在非常后悔我当时说了这句话)。这里可以看到,阿里...原创 2019-09-04 17:21:25 · 157 阅读 · 1 评论