我要变成万人迷-CSDN博客

原创 2021-07-27

PL/SQL是Oracle数据库对SQL语句的扩展，一次插入多條語句的時候參考：insert allinto Person(id ,name) values (3,‘uu’)into Person(id,name) values (6,‘kk’)select * from dual;select * from Person

2021-07-27 17:01:57 317

我大四，2021年的应届毕业生，师范大学的一个计算机专业，在学校拿到了教师资格证书，也参加了一个长达2年多的一个大数据培训班，现在回想起来，满怀着对计算机，大数据行业的热情和赤忱中，我毕业了但是我却迷茫了，找到了第一家愿意让我做实习僧的公司，天源迪科，我被分进了据说跟业务紧密相关的一个部门，不得不说，公司员工对我都很好，也乐于帮我解决问题，特别感激在我的第一次实习生涯里，能遇见好的上司，朋友，让我的社会第一步不至于那么慌张。我不知道成为一名合格的程序员应该怎么做，应该做些什么，学些什么，大学里待了两年的

2020-09-29 11:23:33 680 3

原创用where语句判断是否为null的时候，一定要用 is null，或者用is not null

某网站包含两个表，Customers 表和 Orders 表。编写一个 SQL 查询，找出所有从不订购任何东西的客户。Customers 表：±—±------+| Id | Name |±—±------+| 1 | Joe || 2 | Henry || 3 | Sam || 4 | Max |±—±------+Orders 表：±—±-----------+| Id | CustomerId |±—±-----------+| 1 | 3

2020-09-24 16:53:28 1934

原创 leecode-mysql-开窗函数的使用

编写一个 SQL 查询来实现分数排名。如果两个分数相同，则两个分数排名（Rank）相同。请注意，平分后的下一个名次应该是下一个连续的整数值。换句话说，名次之间不应该有“间隔”。±—±------+| Id | Score |±—±------+| 1 | 3.50 || 2 | 3.65 || 3 | 4.00 || 4 | 3.85 || 5 | 4.00 || 6 | 3.65 |±—±------+例如，根据上述给定的 Scores 表，你的查询应该返回

2020-09-23 09:35:16 278

原创 sql中 sum 嵌套case when的使用。

SELECT SUM(case WHEN sex=1 then 1 else 0 end )as ‘男生’,SUM(case when sex =2 then 1 else 0 end )'女生’FROM asex这句sql输出的就是男女生的人数（1代表男生，2代表女生），SUM(case WHEN sex=1 then 1 else 0 end )这句话的含义就是统计sex列中值为1的行数总和。...

2020-09-22 16:52:40 2193

原创 mysql中的窗口函数 rank(),dense_rank(),row_number()的区别

select *rank() over (order by 成绩 desc) as ranking,dense_rank() over (order by 成绩 desc) as dese_rank,row_number() over (order by 成绩 desc) as row_numfrom 班级

2020-09-19 21:43:41 886 2

原创 leetcode 训练之mysql day1.

1select ifNull((select **distinct**(salary) from Employee order by salary desc limit 1,1),null) as SecondHighestSalary; ```sql编写一个 SQL 查询，获取 Employee 表中第二高的薪水（Salary）。+----+--------+| Id | Salary |+----+--------+| 1 | 100 || 2 | 200 ||

2020-09-17 12:43:43 120

原创 mysql 中的limit，limit-offset关键字

select * from employee limit 4，1它代表的含义是从查询出的结果中从第4行开始，取一行。select * from employee limit 4 offset 1从第一行开始，取4行。

2020-09-17 11:07:29 544 1

原创 Registry key ‘Software\JavaSoft\Java Runtime Environment‘\CurrentVersion‘ has value ‘1.8‘, but ‘1.7‘

Windows安装jdk1.8，配置好环境变量后，运行Java报错：Error: Registry key ‘Software\JavaSoft\Java Runtime Environment’\CurrentVersion’has value ‘1.8’, but ‘1.7’ is required.Error: could not find java.dll网上搜索解决方案都是让把注册表中的CurrentVersion换成1.7，试了一下确实可以，不过这种情况不清楚对其他依赖jdk8的有没有影

2020-09-05 14:20:50 873

原创使用hbase shell命令出错

ZooKeeper exists failed after 4 attempts2020-08-26 16:49:37,705 WARN [main] zookeeper.ZKUtil: hconnection-0x14a049f90x0, quorum=node101:2181,node102:2181,node103:2181, baseZNode=/hbase Unable to set watcher on znode (/hbase/hbaseid)org.apache.zookeeper.

2020-08-26 10:08:37 859

原创数据结构

1.栈特点：先进先出2.队列特点：先进先出3.数组特点：查询快，增删慢原因：数组的存储位置是连续的，找到首地址后，根据索引来找相应的位置。4.链表特点：查询慢，增删快单向链表：单向链表的存储位置是不连续的，一个元素记录后面一个元素的位置，同时记录它自己的地址。双向链表：双向链表的存储位置是**连续**的，一个元素，记录下一个元素的地址，并且记录上一个元素的地址。5.红黑树二叉树：分支不能超过两个平衡树：在二叉树的基础上，每个节点的分支是一样多的。红黑树：趋近于平衡树，节点可以是

2020-08-22 09:41:41 147

原创 hive连接本地的mysql时出错

我都想哭了，什么方法都用完了，mysql的用户访问权都搞了，就是不行，花了我两天时间，心态都崩了，快哭了，才发现是防火墙没关，哭了，气哭了，下次一定要检查本地电脑的防火墙，不要忘记了。...

2020-05-19 19:21:37 336

原创 Reduce map的并行度

Reduce的并行度：一般在集群中，一个节点启动一个reduceTaskreduceTask的数量是代码能决定的通过job.setNumReduceTask(n)来决定，n是ReduceTask的数量，根据实验表明，reduceTask的数量与slaves节点数量保持一致的时候，性能最好。如果有特殊情况，比如输出需要一个文件，reduceTask要设置为1.或者不需要reduceTask的时候，设置为0.Map的并行度：原数据需要一个临界点进行切割，可以任意设置，如果需要读取HDFS中的数据，为

2020-05-09 01:49:01 368

原创 zookeeper：动物园管理者

1.zookeeper = 文件系统+监听通知机制文件系统：在zookeeper中的文件系统是一个小型的，存储所有节点都关心的内容的树形文件系统，每个树的节点都叫做znode。随着数据的逻辑不断增加，这棵树的节点会越来越多。数据的形式：key——valuekey：是数据节点的名称value：是节点中存储的数据。2.监听通知机制：监听所有节点上需要监听的数据，如果某个节点数据发生了变化，...

2020-05-03 09:39:02 420

原创 reduce端join业务

joinmysql的表连接innerjoin：内连接不管连接的两边数据有多少，连上的所有数据全部显示leftjoin：左（外）连接，以左表为主表，数据的显示数量以左表为主rightjoin：右（外）连接，以右表为主表，数据的显示数量以右表为主mapreduce的表连接：属于一种业务，没有真实的表，使用不同的文件的数据可以充当表数据。mysql中使用mysql语句实现，MapRed...

2020-04-24 17:46:49 186

原创 Combiner

Combiner定义：是shuffle过程里map端shuffle中磁盘缓冲区里的操作，它不是每一个shuffle过程都会有的。在map端执行了部分的reduce的操作，目的是为了分担reduce端的计算压力，解决reduce端的数据倾斜问题。...

2020-04-19 00:16:06 205

原创排序专题

1.部分排序每个分区的key是有序的，但是整体无序（分区与分区之间是无序的）2.全排序解决方案：1.设置reducer的个数为1.2.自定义的分区规则进行分区。3.随机抽样。：由于数据的不均衡或者数据的随时调整，很有可能在原有分区规则基础上产生数据倾斜问题。会让某个reduce节点的计算量远大于其他节点的计算量，影响整体计算的性能。为了解决上面的问题，所以采用随机抽样的方式，动态的...

2020-04-17 21:52:56 167

原创排序

如何实现排序：1.在原生的数据类型中，已经实现了Comparable接口，源码中重写comparableTo方法提供默认的排序规则2.自定义数据类型，如果这个类型有作为key的需求，定义的时候必须实现Comparable接口，重写comparaTo方法提供默认排序规则。...

2020-04-03 18:00:17 115

原创 shffle&分区

shuffle 洗牌 map 是一个进程 mapTask reduce 是一个进程 reduceTask MapReduce中只有这两种进程。shuffle是存在于这两种进程之间的一个过程，shuffle可以分为map端的shuffle和reduce端的shuffle。整体执行的流程： 1.根据分片规则划分不同的节点执行。 2.每个节点接受到数据，按照mappe...

2020-04-02 13:41:49 173

原创数据类型和序列化

内存和磁盘之间是频繁的进行数据的交换的。序列化：把内存中的对象以字节数组的形式写入磁盘中的过程，就叫做序列化反序列化：把磁盘中的字节数组转换成对象的形式写入内存的过程。java中的序列化： Java中的序列化是比较重量级的序列化，不适用于海量数据的处理。hadoop中的序列化在java序列化基础上按照...

2020-03-30 21:08:46 432

原创正则表达式：

正则表达式：处理字符串的工具，任何语言都有的工具。只不过不同语言之间存在差异。asd 具体的匹配项【asd】从中括号里随意一个字符【a-f】代表一个范围内的任意一个字符【a-zA-Z0-9】代表一个范围内任意一个字符【^asd】除了这个范围以外的任意一个字符 \d 它等于【0-9】任意一个字符 \D 它等于【...

2020-03-29 08:20:55 124

原创 MapReduce以及第一个案例wordcount

MapReduce处理海量数据怎么计算的问题Mapreduce是一种思想，也是一种计算框架MapReduce给我们的规范：（框架）1.思想的规范：map：映射 key-value把数据划分为最小的数据单元。什么是最小》按照实际的业务逻辑划分最小单位。reduce：合并按key相同的，value值合并。合并的两种方案：1.每一组分别合并2.整体进行合并。2.代码的规范M...

2020-03-27 23:21:54 237

原创 windows环境搭建

步凑：1.解压缩 hadoop.tar.gz2.配置环境变量3.把bin目录下支持window的文件覆盖到hadoop-2.7.6下的bin目录下。（ D:\大数据资料\hadoop资料\windows\hadoop-2.6.1\bin ）把bin目录下的hadoop.dll放在C://windows/System32 下4.修改配置文件：注意：路径改成windows的规则，并...

2020-03-27 13:07:37 281

原创系统找不到指定的路径。 Error: JAVA_HOME is incorrectly set. Please update D:\Bigdata\hadoop-2.7.6\conf

在windows上配置hadoop环境的时候，进入cmd，输入hadoop，出现错误：系统找不到指定的路径。 Error: JAVA_HOME is incorrectly set. Please update D:\Bigdata\hadoop-2.7.6\conf我的JAVA_HOME=C:\Program Files\Java\jdk1.7.0_80解决办法：打开had...

2020-03-27 10:57:11 2858

原创 HDFS的其他管理功能

1.集群之间的数据传输：hadoop distcp hadoop distcp hdfs://node101:9000/apple hdfs://node000:9000/2.小文件处理（存档）hadoop archive -archiveName NAME -p 父路径 src* dest查看存档hadoop fs -lsr /home.har(正常的查看，看不到具体的内容)h...

2020-03-27 10:49:03 134

原创 DataNode原理

Datanode原理：除了能直接破坏数据本身的行为之外，也有一些因素能引起数据无法使用（如网络）。心跳机制：namenode每隔3秒会询问datanode，查看datanode的情况。步凑：1.在启动服务的时候，DN向NN注册，告诉当前节点的存储情况2.NN告知DN，注册成功3.DN每隔一个小时，向NN发送一次自己当前存储的情况4.NN每隔3秒（心跳机制）向DN发送来连接测试请求...

2020-03-26 20:00:15 454

原创 namenode原理

namenode的两种文件：edits和fsimageedits：类似于电脑中的内存（临时的操作过程数据）fsimage：类似于电脑中的磁盘（某一时刻的最终完整状态。)edits是动态，会经常发生变化的，fsimage是相对静态的，一个完整的文件是edits+fsimage。hdfs第一次启动时（格式化的时候），会在name目录下会创建edits和fsimage文件。hdfs在之后的启动...

2020-03-25 12:18:51 342

原创 namenode读数据原理

1.客户端向namenode发送请求。2.namenode向客户端响应求情文件的元数据3.客户端通过namenode提供的元数据，根据拓扑结构就近找3份中最近的其中一份的datanode（虽然存储3份，但是只读一份）4.datanode返回数据给客户端5.在内存中缓存，将所有块合并成一块。...

2020-03-25 10:55:49 283

原创 rsync error: some files/attrs were not transferred (see previous errors) (code 23) at main.c(1518)

在使用xsync同步主节点文件到其他节点操作时，rsync报错：权限不够解决办法：将主节点换成root用户后，执行命令，输入密码后就可以了注意:执行完毕后改成当前用户状态。原文链接：https://blog.csdn.net/slovyz/article/details/38924967...

2020-03-25 09:52:30 653

原创全球13台DNS根服务器分布：

全球13台DNS根服务器分布：美国VeriSign公司　2台网络管理组织IANA(Internet Assigned Number Authority)　1台欧洲网络管理组织RIPE-NCC(Resource IP Europeens Network Coordination Centre)　1台美国PSINet公司　1台美国ISI(Information Sciences Instit...

2020-03-22 10:35:50 20113

原创机架感知

每一个用户的wifi和其他用户的wifi都是由交换机或者路由器来进行连接的，路由器，交换机之间也是由路由器交换机来进行连接的，最顶端的路由器交换机就是根，全球根服务器有13台。...

2020-03-22 10:33:10 339

原创 hdfs的API操作（写入数据到集群），hdfs写入数据原理

代码：Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(conf); System.out.println(fs); fs.close();关于hdfs里的相关配置信息1.core-default.xml(位置是在引的包中的Maven：org.ap...

2020-03-22 08:01:53 647

原创 File /animal/tiger could only be replicated to 0 nodes instead of minReplication (=1). There are 0

问题：从本地文件向hdfs集群上传文件时，报错报错： File /animal/tiger could only be replicated to 0 nodes instead of minReplication (=1). There are 0 datanode(s) running and no node(s) are excluded in this operation.大概意思就...

2020-03-22 00:54:44 311

原创 Call From DESKTOP-20OKMD5/192.168.44.1 to node101:9000 failed on socket timeout exception: org.apach

问题情景：用API操作方式从本地上传文件到hdfs集群报错：Call From DESKTOP-20OKMD5/192.168.44.1 to node101:9000 failed on socket timeout exception: org.apache.hadoop.net.ConnectTimeoutException: 20000 millis timeout while wait...

2020-03-22 00:40:29 1694 2

原创 HDFS原理和准备工作

HDFS：hadoop Distributed File System（分布式的文件系统）在硬件设备的基础上，添加一些软件，可以对数据进行存储和管理的叫做文件系统，HDFS的硬件设备是分布在各个节点之上。怎么区别hdfs与linux/window系统上的文件系统？在linux/window中的最原始的目录前面会有file：//的形式，如：file：///c：//file：///etc...

2020-03-20 11:44:31 367

原创 date: 无法设置日期: 不允许的操作

今天在配置centOS时间，报错如下：“date: 无法设置日期: 不允许的操作”，当时使用Linux系统下用普通用户登录。执行场景如下：[xxx@localhost ~]$ date -s “2016-01-19 10:30:20”date: 无法设置日期: 不允许的操作问题解决：用su命令切换到超级用户[xxx@localhost ~]$ su root密码：执行dat...

2020-03-19 20:27:53 2281

原创完全分布式

1.创建节点：1）传统的使用镜像的方式创建2）以完整的原型机为基础，做完整的克隆2.修改网络配置第一步：将/etc/udev/rules.d/70-persistant 目录下的etho注释掉，并且，将第二块网卡改写成第一块网卡eth1 改成eth0。并记住eth0中的mac地址sudo vi /etc/udev/rules.d/70-persistent-net.rules第二步：...

2020-03-19 15:35:35 175

原创使用xcsyn同步节点信息时出错

rsync error: some files/attrs were not transferred (see previous errors) (code 23) at main.c(1518)rsync: mkstemp “/usr/local/bin/.xsync.WkaiVN” failed: Permission denied (13)问题1：用户的权限不对，例如node2要给ndo...

2020-03-17 23:20:46 338

原创搭建伪分布式

1.下载安装包hadoop，jdk2.解压缩3.配置环境变量4.修改配置文件4.5 关闭防火墙5.格式化

2020-03-17 16:57:32 134

scala-2.12.7.zip

apache-maven-3.6.0.zip

数据类型大集合，请过目

空空如也