自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(99)
  • 资源 (3)
  • 收藏
  • 关注

原创 python的基础语法

2021-09-03 08:42:51 280

原创 2021-07-27

PL/SQL是Oracle数据库对SQL语句的扩展,一次插入多條語句的時候參考:insert allinto Person(id ,name) values (3,‘uu’)into Person(id,name) values (6,‘kk’)select * from dual;select * from Person

2021-07-27 17:01:57 211

原创 在程序员这条路上我有点迷茫

我大四,2021年的应届毕业生,师范大学的一个计算机专业,在学校拿到了教师资格证书,也参加了一个长达2年多的一个大数据培训班,现在回想起来,满怀着对计算机,大数据行业的热情和赤忱中,我毕业了但是我却迷茫了,找到了第一家愿意让我做实习僧的公司,天源迪科,我被分进了据说跟业务紧密相关的一个部门,不得不说,公司员工对我都很好,也乐于帮我解决问题,特别感激在我的第一次实习生涯里,能遇见好的上司,朋友,让我的社会第一步不至于那么慌张。我不知道成为一名合格的程序员应该怎么做,应该做些什么,学些什么,大学里待了两年的

2020-09-29 11:23:33 520 3

原创 用where语句判断是否为null的时候,一定要用 is null,或者用is not null

某网站包含两个表,Customers 表和 Orders 表。编写一个 SQL 查询,找出所有从不订购任何东西的客户。Customers 表:±—±------+| Id | Name |±—±------+| 1 | Joe || 2 | Henry || 3 | Sam || 4 | Max |±—±------+Orders 表:±—±-----------+| Id | CustomerId |±—±-----------+| 1 | 3

2020-09-24 16:53:28 1787

原创 leecode-mysql-开窗函数的使用

编写一个 SQL 查询来实现分数排名。如果两个分数相同,则两个分数排名(Rank)相同。请注意,平分后的下一个名次应该是下一个连续的整数值。换句话说,名次之间不应该有“间隔”。±—±------+| Id | Score |±—±------+| 1 | 3.50 || 2 | 3.65 || 3 | 4.00 || 4 | 3.85 || 5 | 4.00 || 6 | 3.65 |±—±------+例如,根据上述给定的 Scores 表,你的查询应该返回

2020-09-23 09:35:16 180

原创 sql中 sum 嵌套case when的使用。

SELECT SUM(case WHEN sex=1 then 1 else 0 end )as ‘男生’,SUM(case when sex =2 then 1 else 0 end )'女生’FROM asex这句sql输出的就是男女生的人数(1代表男生,2代表女生),SUM(case WHEN sex=1 then 1 else 0 end )这句话的含义就是统计sex列中值为1的行数总和。...

2020-09-22 16:52:40 1783

原创 mysql中的窗口函数 rank(),dense_rank(),row_number()的区别

select *rank() over (order by 成绩 desc) as ranking,dense_rank() over (order by 成绩 desc) as dese_rank,row_number() over (order by 成绩 desc) as row_numfrom 班级

2020-09-19 21:43:41 665 2

原创 leetcode 训练之mysql day1.

1select ifNull((select **distinct**(salary) from Employee order by salary desc limit 1,1),null) as SecondHighestSalary; ```sql编写一个 SQL 查询,获取 Employee 表中第二高的薪水(Salary) 。+----+--------+| Id | Salary |+----+--------+| 1 | 100 || 2 | 200 ||

2020-09-17 12:43:43 51

原创 mysql 中的limit,limit-offset关键字

select * from employee limit 4,1它代表的含义是从查询出的结果中从第4行开始,取一行。select * from employee limit 4 offset 1从第一行开始,取4行。

2020-09-17 11:07:29 452 1

原创 Registry key ‘Software\JavaSoft\Java Runtime Environment‘\CurrentVersion‘ has value ‘1.8‘, but ‘1.7‘

Windows安装jdk1.8,配置好环境变量后,运行Java报错:Error: Registry key ‘Software\JavaSoft\Java Runtime Environment’\CurrentVersion’has value ‘1.8’, but ‘1.7’ is required.Error: could not find java.dll网上搜索解决方案都是让把注册表中的CurrentVersion换成1.7,试了一下确实可以,不过这种情况不清楚对其他依赖jdk8的有没有影

2020-09-05 14:20:50 671

原创 使用hbase shell命令 出错

ZooKeeper exists failed after 4 attempts2020-08-26 16:49:37,705 WARN [main] zookeeper.ZKUtil: hconnection-0x14a049f90x0, quorum=node101:2181,node102:2181,node103:2181, baseZNode=/hbase Unable to set watcher on znode (/hbase/hbaseid)org.apache.zookeeper.

2020-08-26 10:08:37 623

原创 数据结构

1.栈特点:先进先出2.队列特点:先进先出3.数组特点:查询快,增删慢 原因:数组的存储位置是连续的,找到首地址后,根据索引来找相应的位置。4.链表特点:查询慢,增删快单向链表:单向链表的存储位置是不连续的,一个元素记录后面一个元素的位置,同时记录它自己的地址。双向链表:双向链表的存储位置是**连续**的,一个元素,记录下一个元素的地址,并且记录上一个元素的地址。5.红黑树二叉树:分支不能超过两个平衡树:在二叉树的基础上,每个节点的分支是一样多的。红黑树:趋近于平衡树,节点可以是

2020-08-22 09:41:41 76

原创 hive连接本地的mysql时出错

我都想哭了,什么方法都用完了,mysql的用户访问权都搞了,就是不行,花了我两天时间,心态都崩了,快哭了,才发现是防火墙没关,哭了,气哭了,下次一定要检查本地电脑的防火墙,不要忘记了。...

2020-05-19 19:21:37 220

原创 Reduce map的并行度

Reduce的并行度:一般在集群中,一个节点启动一个reduceTaskreduceTask的数量是代码能决定的通过job.setNumReduceTask(n)来决定,n是ReduceTask的数量,根据实验表明,reduceTask的数量与slaves节点数量保持一致的时候,性能最好。如果有特殊情况,比如输出需要一个文件,reduceTask要设置为1.或者不需要reduceTask的时候,设置为0.Map的并行度:原数据需要一个临界点进行切割,可以任意设置,如果需要读取HDFS中的数据,为

2020-05-09 01:49:01 248

原创 zookeeper:动物园管理者

1.zookeeper = 文件系统+监听通知机制文件系统:在zookeeper中的文件系统是一个小型的,存储所有节点都关心的内容的树形文件系统,每个树的节点都叫做znode。随着数据的逻辑不断增加,这棵树的节点会越来越多。数据的形式:key——valuekey:是数据节点的名称value:是节点中存储的数据。2.监听通知机制:监听所有节点上需要监听的数据,如果某个节点数据发生了变化,...

2020-05-03 09:39:02 265

原创 reduce端join业务

joinmysql的表连接innerjoin:内连接 不管连接的两边数据有多少,连上的所有数据全部显示leftjoin:左(外)连接,以左表为主表,数据的显示数量以左表为主rightjoin:右(外)连接,以右表为主表,数据的显示数量以右表为主mapreduce的表连接:属于一种业务,没有真实的表,使用不同的文件的数据可以充当表数据。mysql中使用mysql语句实现,MapRed...

2020-04-24 17:46:49 105

原创 Combiner

Combiner定义:是shuffle过程里map端shuffle中磁盘缓冲区里的操作,它不是每一个shuffle过程都会有的。在map端执行了部分的reduce的操作,目的是为了分担reduce端的计算压力,解决reduce端的数据倾斜问题。...

2020-04-19 00:16:06 121

原创 排序专题

1.部分排序每个分区的key是有序的,但是整体无序(分区与分区之间是无序的)2.全排序解决方案:1.设置reducer的个数为1.2.自定义的分区规则进行分区。3.随机抽样。:由于数据的不均衡或者数据的随时调整,很有可能在原有分区规则基础上产生数据倾斜问题。会让某个reduce节点的计算量远大于其他节点的计算量,影响整体计算的性能。为了解决上面的问题,所以采用随机抽样的方式,动态的...

2020-04-17 21:52:56 109

原创 排序

如何实现排序:1.在原生的数据类型中,已经实现了Comparable接口,源码中重写comparableTo方法提供默认的排序规则2.自定义数据类型,如果这个类型有作为key的需求,定义的时候必须实现Comparable接口,重写comparaTo方法提供默认排序规则。...

2020-04-03 18:00:17 68

原创 shffle&分区

shuffle 洗牌 map 是一个进程 mapTask reduce 是一个进程 reduceTask MapReduce中只有这两种进程。shuffle是存在于这两种进程之间的一个过程,shuffle可以分为map端的shuffle和reduce端的shuffle。 整体执行的流程: 1.根据分片规则划分不同的节点执行。 2.每个节点接受到数据,按照mappe...

2020-04-02 13:41:49 104

原创 数据类型和序列化

内存和磁盘之间是频繁的进行数据的交换的。序列化: 把内存中的对象以字节数组的形式写入磁盘中的过程,就叫做序列化反序列化: 把磁盘中的字节数组转换成对象的形式写入内存的过程。java中的序列化: Java中的序列化是比较重量级的序列化,不适用于海量数据的处理。hadoop中的序列化 在java序列化基础上按照...

2020-03-30 21:08:46 356

原创 正则表达式:

正则表达式:处理字符串的工具,任何语言都有的工具。只不过不同语言之间存在差异。asd 具体的匹配项【asd】 从中括号里随意一个字符【a-f】 代表一个范围内的任意一个字符 【a-zA-Z0-9】代表一个范围内任意一个字符 【^asd】除了这个范围以外的任意一个字符 \d 它等于【0-9】任意一个字符 \D 它等于【...

2020-03-29 08:20:55 73

原创 MapReduce以及第一个案例wordcount

MapReduce处理海量数据怎么计算的问题Mapreduce是一种思想,也是一种计算框架MapReduce给我们的规范:(框架)1.思想的规范:map:映射 key-value把数据划分为最小的数据单元。什么是最小 》按照实际的业务逻辑划分最小单位。reduce:合并按key相同的,value值合并。合并的两种方案:1.每一组分别合并2.整体进行合并。2.代码的规范M...

2020-03-27 23:21:54 153

原创 windows环境搭建

步凑:1.解压缩 hadoop.tar.gz2.配置环境变量3.把bin目录下支持window的文件覆盖到hadoop-2.7.6下的bin目录下。( D:\大数据资料\hadoop资料\windows\hadoop-2.6.1\bin )把bin目录下的hadoop.dll放在C://windows/System32 下4.修改配置文件:注意:路径改成windows的规则,并...

2020-03-27 13:07:37 199

原创 系统找不到指定的路径。 Error: JAVA_HOME is incorrectly set. Please update D:\Bigdata\hadoop-2.7.6\conf

在windows上配置hadoop环境的时候,进入cmd,输入hadoop,出现错误:系统找不到指定的路径。 Error: JAVA_HOME is incorrectly set. Please update D:\Bigdata\hadoop-2.7.6\conf我的JAVA_HOME=C:\Program Files\Java\jdk1.7.0_80解决办法:打开had...

2020-03-27 10:57:11 2468

原创 HDFS的其他管理功能

1.集群之间的数据传输:hadoop distcp hadoop distcp hdfs://node101:9000/apple hdfs://node000:9000/2.小文件处理(存档)hadoop archive -archiveName NAME -p 父路径 src* dest查看存档hadoop fs -lsr /home.har(正常的查看,看不到具体的内容)h...

2020-03-27 10:49:03 73

原创 DataNode原理

Datanode原理:除了能直接破坏数据本身的行为之外,也有一些因素能引起数据无法使用(如网络)。心跳机制:namenode每隔3秒会询问datanode,查看datanode的情况。步凑:1.在启动服务的时候,DN向NN注册,告诉当前节点的存储情况2.NN告知DN,注册成功3.DN每隔一个小时,向NN发送一次自己当前存储的情况4.NN每隔3秒(心跳机制)向DN发送来连接测试请求...

2020-03-26 20:00:15 360

原创 namenode原理

namenode的两种文件:edits和fsimageedits:类似于电脑中的内存(临时的操作过程数据)fsimage:类似于电脑中的磁盘(某一时刻的最终完整状态。)edits是动态,会经常发生变化的,fsimage是相对静态的,一个完整的文件是edits+fsimage。hdfs第一次启动时(格式化的时候),会在name目录下会创建edits和fsimage文件。hdfs在之后的启动...

2020-03-25 12:18:51 244

原创 namenode读数据原理

1.客户端向namenode发送请求。2.namenode向客户端响应求情文件的元数据3.客户端通过namenode提供的元数据,根据拓扑结构就近找3份中最近的其中一份的datanode(虽然存储3份,但是只读一份)4.datanode返回数据给客户端5.在内存中缓存,将所有块合并成一块。...

2020-03-25 10:55:49 206

原创 rsync error: some files/attrs were not transferred (see previous errors) (code 23) at main.c(1518)

在使用xsync同步主节点文件到其他节点操作时,rsync报错:权限不够解决办法:将主节点换成root用户后,执行命令,输入密码后就可以了注意:执行完毕后改成当前用户状态。原文链接:https://blog.csdn.net/slovyz/article/details/38924967...

2020-03-25 09:52:30 560

原创 全球13台DNS根服务器分布:

全球13台DNS根服务器分布:美国VeriSign公司 2台网络管理组织IANA(Internet Assigned Number Authority) 1台欧洲网络管理组织RIPE-NCC(Resource IP Europeens Network Coordination Centre) 1台美国PSINet公司 1台美国ISI(Information Sciences Instit...

2020-03-22 10:35:50 17626

原创 机架感知

每一个用户的wifi和其他用户的wifi都是由交换机或者路由器来进行连接的,路由器,交换机之间也是由路由器交换机来进行连接的,最顶端的路由器交换机就是根,全球根服务器有13台。...

2020-03-22 10:33:10 246

原创 hdfs的API操作(写入数据到集群),hdfs写入数据原理

代码:Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(conf); System.out.println(fs); fs.close();关于hdfs里的相关配置信息1.core-default.xml(位置是在引的包中的Maven:org.ap...

2020-03-22 08:01:53 521

原创 File /animal/tiger could only be replicated to 0 nodes instead of minReplication (=1). There are 0

问题:从本地文件向hdfs集群上传文件时,报错报错: File /animal/tiger could only be replicated to 0 nodes instead of minReplication (=1). There are 0 datanode(s) running and no node(s) are excluded in this operation.大概意思就...

2020-03-22 00:54:44 218

原创 Call From DESKTOP-20OKMD5/192.168.44.1 to node101:9000 failed on socket timeout exception: org.apach

问题情景:用API操作方式从本地上传文件到hdfs集群报错:Call From DESKTOP-20OKMD5/192.168.44.1 to node101:9000 failed on socket timeout exception: org.apache.hadoop.net.ConnectTimeoutException: 20000 millis timeout while wait...

2020-03-22 00:40:29 1170 2

原创 HDFS原理和准备工作

HDFS:hadoop Distributed File System(分布式的文件系统)在硬件设备的基础上,添加一些软件,可以对数据进行存储和管理的叫做文件系统,HDFS的硬件设备是分布在各个节点之上。怎么区别hdfs与linux/window系统上的文件系统?在linux/window中的最原始的目录前面会有file://的形式,如:file:///c://file:///etc...

2020-03-20 11:44:31 198

原创 date: 无法设置日期: 不允许的操作

今天在配置centOS时间,报错如下:“date: 无法设置日期: 不允许的操作”,当时使用Linux系统下用普通用户登录。执行场景如下:[xxx@localhost ~]$ date -s “2016-01-19 10:30:20”date: 无法设置日期: 不允许的操作问题解决:用su命令切换到超级用户[xxx@localhost ~]$ su root密码:执行dat...

2020-03-19 20:27:53 2000

原创 完全分布式

1.创建节点:1)传统的使用镜像的方式创建2)以完整的原型机为基础,做完整的克隆2.修改网络配置第一步:将/etc/udev/rules.d/70-persistant 目录下的etho注释掉,并且,将第二块网卡改写成第一块网卡eth1 改成eth0。并记住eth0中的mac地址sudo vi /etc/udev/rules.d/70-persistent-net.rules第二步:...

2020-03-19 15:35:35 129

原创 使用xcsyn同步节点信息时出错

rsync error: some files/attrs were not transferred (see previous errors) (code 23) at main.c(1518)rsync: mkstemp “/usr/local/bin/.xsync.WkaiVN” failed: Permission denied (13)问题1:用户的权限不对,例如node2要给ndo...

2020-03-17 23:20:46 190

原创 搭建伪分布式

1.下载安装包hadoop,jdk2.解压缩3.配置环境变量4.修改配置文件4.5 关闭防火墙5.格式化

2020-03-17 16:57:32 73

scala-2.12.7.zip

scala-2.12.7.zip

2021-08-17

apache-maven-3.6.0.zip

apache-maven-3.6.0.zip

2021-08-17

数据类型大集合,请过目

数据类型太多了,好多小朋友,比如我都莎莎分不清,今天做了一个图,希望我能背下来

2018-11-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除