い回首、相濡以沫-CSDN博客

原创 char、varchar和varchar2的比较

在MySQL 中char 和 varchar 都是存储字符串的，区别在于char有固定的长度，而varchar属于可变长的字符类型。目前varchar和varchar2是同义词，工业标准的VARCHAR类型可以存储空字符串，但是oracle不这样做，尽管它保留以后这样做的权利。Oracle自己开发了一个数据类型VARCHAR2，这个类型不是一个标准的VARCHAR，它将在数据库中varchar列可以存储空字符串的特性改为存储NULL值。如果你想有向后兼容的能力，Oracle建议使用VARCHAR2而不是V

2020-09-14 17:59:47 428

原创数据结构之——堆、栈、队列

概述数据结构是组织存储数据，以便我们有效的访问、更改数据。堆栈、队列是计算机中定义最早的数据结构。堆栈是后进先出（左端固定固定右端浮动，堆栈是右进右出），队列是先进先出的数据组织和存储形式。栈栈是一种运算受限的线性表，其限制是指只仅允许在表的一端进行插入和删除操作，这一端被称为栈顶（Top），相对地，把另一端称为栈底（Bottom）。把新元素放到栈顶元素的上面，使之成为新的栈顶元素称作进栈、入栈或压栈（Push）；把栈顶元素删除，使其相邻的元素成为新的栈顶元素称作出栈或退栈（Pop）。这种受限的运算使

2020-08-31 18:17:08 1345

原创顺序表和数组的区别和联系

顺序表和数组的区别和联系从C语言角度来讲，数组和线性表的区别：数组长度不可变，线性表长度是动态可变的。逻辑结构：结构定义中是对操作对像的数学描述，描述的是数据元素之间的逻辑关系。例如，线性结构，树形结构，图状结构或网状结构。它们都属于逻辑结构。物理结构：又称存储结构，是数据结构在计算机中的表示（又称映像）。例如，数组，指针。顺序表与数组都是数据结构，只是描述角度不同。线性表是从逻辑结构的角度来说的，除了头和尾之外，它的每一个元素都只有一个前驱元素和一个后驱元素。各种队列（单向、双向、循环队列），栈

2020-08-31 16:38:15 2665

原创 HBase启动时有进程，webUI不显示HRegionServer

HBase启动时有进程，webUI不显示HRegionServer问题描述：启动Hbase以后，Hmaster和HRegionServer进程都存在，但是web上没有HRegionServer没有信息，并且会提示一串英文（大概意思是负载均衡没有启用）解决办法:hadoop进入安全模式了，hadoop dfsadmin -safemode leave用这个命令离开安全模式就可以了。...

2020-08-28 18:24:47 1504

原创数据结构——线性表（顺序表和链表）

数据结构——线性表（顺序表和链表）顺序表顺序表形式顺序表结构顺序表的实现链表链表与顺序表对比什么是线性表？在程序中将一组数据（通常同为某种类型的）数据作为整体去管理和使用，需要创建这种元素组，用变量去记录它们，传递传出函数等。一组数据中包含的元素个数可能发生改变（增加和删除元素），这样一组序列元素的组织，可以将其抽象成线性表。在实际应用中，常以栈、队列、字符串等特殊形式使用。一个线性表是某类元素的一个集合，还记录着元素之间的一种顺序关系，线性表是最基本的数据结构之一。根据线性表的实际存储方式.

2020-08-28 18:18:04 751

原创【Spark篇】--Spark中的宽窄依赖和Stage的划分

一、前述RDD之间有一系列的依赖关系，依赖关系又分为窄依赖和宽依赖。Spark中的Stage其实就是一组并行的任务，任务是一个个的task 。二、具体细节窄依赖父RDD和子RDD partition之间的关系是一对一的。或者父RDD一个partition只对应一个子RDD的partition情况下的父RDD和子RDD partition关系是多对一的。不会有shuffle的产生。父RDD...

2019-11-18 20:01:18 181

原创 Scala实现快速排序

//快速排序 def quickSort(array: Array[Int], low: Int, high: Int): Array[Int] = { var key = array(low) var i = low var j = high while (i < j) { //右到左遍历 while (i < j &am...

2019-11-14 22:23:27 219

原创快速排序

快速排序，听这个名字就能想到它排序速度快，它是一种原地排序。其基本思想是随机找出一个数（通常就拿数组第一个数据就行），把它插入一个位置，使得它左边的数都比它小，它右边的数据都比它大，这样就将一个数组分成了两个子数组，然后再按照同样的方法把子数组再分成更小的子数组，直到不能分解为止。它也是分治思想的一个经典实验快速排序算法过程下面通过一个例子介绍快速排序算法的思想，假设要对数组a[10]={6...

2019-11-14 22:20:14 111

原创 hbase建student表，提示表已经存在，但是list查不到

原因是：在删除一个表之前，disable的时候不小心断开或其他因素导致disable没有成功，然后就直接drop掉了这张表，虽然表被删除掉了，但是zookeeper依然存在该表的信息，故而造成上述错误，list的时候也找不到。解决办法：运行zkCli.sh，进入zookeeper客户端进行如下操作：删掉student表即可...

2019-11-07 19:48:24 767

原创安装伪分布式的Hadoop

Hadoop下载：版本hadoop-2.6.4安装之前请确定jdk已经安装好1.把hadoop-2.6.4.tar.gz拖放到/usr/local目录下2.使用命令tar -zxvf hadoop-2.6.4.tar.gz解压缩，产生文件夹/usr/local/hadoop-2.6.43.编辑/etc/profile，增加环境变量。记得source /etc/profile4.修改/u...

2019-11-06 21:55:08 94

原创 Datanode工作机制

DataNode工作机制如下图：1）一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。2）DataNode启动后向NameNode注册，通过后，周期性（1小时）的向NameNode上报所有的块信息。3）心跳是每3秒一次，心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台...

2019-11-06 21:37:11 122

原创 NameNode和SecondaryNameNode的工作机制

NameNode和Secondary NameNode的工作机制如下图：第一阶段：NameNode启动1、第一次启动NameNode格式化后，创建fsimage和edits文件。如果不是第一次启动，直接加载编译日志和镜像文件到内存。2、客户端对元数据进行增删改的请求3、namenode记录操作日志，更新滚动日志4、namenode在内存中对数据进行增删改第二阶段：Secondary...

2019-11-06 21:31:19 282

原创 HDFS架构组成以及读写机制

概念：hdfs是一个主从式分布式文件管理系统，通过目录树来管理文件，由多台服务器联合起来实现其功能，集群中的服务器有各自的角色优点：1、高容错性数据自动保存多个副本。他通过增加副本的形式，来提高容错性；某一个副本丢失的时候，能够自动恢复2、适合大数据处理数据规模：能够处理的文件能够达到GB、TB、甚至PB文件规模：能够处理百万规模以上的数据，数量相当之大3、可构建在廉价的...

2019-11-06 20:34:54 341

原创 hive小练习：统计游戏数据中每日注册的人数

思路：使用分区表，按照日期分区（年月日），将数据导入分区表。根据分区查询统计每日注册的人数。建立分区表：accountregister.sqlcreate table accountregister (AppID string comment "应用ID",GameID string comment "游戏ID",ChildID string comment "子版本ID",IP s...

2019-11-06 16:20:32 579

原创 hadoop配置HA后，hive查询时出现 SemanticException java.net.UnknownHostException: hadoop

我的原因是配置HA时改变了主机名称，导致与元数据中的主机名不一致。解决办法：修改下面两张表DBS ： Hive数据仓库的总路径SDS ： Hive每张表对应的路径使用sql语句替换hadoop是我以前的主机名称hadoop01是我现在的主机名称update DBS set DB_LOCATION_URI=REPLACE (DB_LOCATION_URI,'hadoop','ha...

2019-11-06 15:12:42 685

原创启动Hadoop时，DataNode启动后一会儿自动消失的解决方法

通过查看日志发现namenode和datanode的clusterID值不一样，原因是重复格式化解决办法：打开hdfs-site.xml里配置的datanode和namenode对应的目录，分别打开current文件夹里的VERSION，可以看到clusterID项正如日志里记录的一样，确实不一致，修改datanode里VERSION文件的clusterID 与namenode里的一致，再重新启...

2019-11-06 14:58:36 618

原创 hbase的读写、储存机制、合并

(1) Client通过Zookeeper的调度，向RegionServer发出写数据请求，在Region中写数据。(2) 数据被写入Region的MemStore，直到MemStore达到预设阈值。(3) MemStore中的数据被Flush成一个StoreFile。(4) 随着StoreFile文件的不断增多，当其数量增长到一定阈值后，触发Compact合并操作，将多个StoreFile合并成一个StoreFile，同时进行版本合并和数据删除。(5) StoreFiles通过不断的Compact

2019-11-06 10:26:10 338

清盏涂墨衣