2019年05月__missTu_

原创 HADOOP和spark的关系？ spark能否替代Hadoop？？？

1. HADOOP和spark的关系？如下图所示：Hadoop和 Spark两者都是大数据框架，但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储，Spark，则是那么一个专门用来对那些分布式存储的大数据进行处理的工具，它并不会进行分布式数据的存储。...

2019-05-31 23:47:35 4813 1

原创 hive创建表时报错：failed on connection exception: java.net.ConnectException: Connection refused

hive创建表时报错FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:Got exception: java.net.ConnectException Call From spark1/192.168.56.109 to spark1:...

2019-05-31 17:25:11 2175

原创 HDFS实现思想及namenode元数据管理机制

1. HDFS实现思想hdfs是通过分布式集群来存储文件，为客户段提供了一个便捷的访问方式，就是一个虚拟的目录结构。文件被存储到hdfs集群中是被切分成block的。文件的block存放在若干台datanode节点上。hdfs文件系统中的文件与真实的block之间存在映射关系，这个关系是由namenode进行管理。每个block在集群中会存储多个副本，好处是可以提高数据的可靠性，还可以...

2019-05-31 16:28:05 451

原创 Hadoop Ha高可用架构

1. 什么是Ha?Ha(High availability )高可用性。Hadoop Ha可以有多个namenode结点，一个是活跃（active）状态，一个是准备（standby）状态。HDFS集群中NameNode 存在单点故障（SPOF）。2. 为什么提出Ha?对于只有一个NameNode的集群，如果NameNode机器出现意外情况，将导致整个集群无法使用，直到NameNode 重新启...

2019-05-31 14:53:49 554

原创二叉搜索树及其操作（python代码实现）

1. 二叉搜索树性质每个结点的健值大于左孩子，每个结点的健值小于右孩子，以左右孩子为根的子树仍为二叉搜索树。**注意：**二叉搜索树不一定是完全二叉树。例如下图：2. 二叉搜索树的常用操作（python代码实现）（1）定义二叉搜索树的节点信息class TreeNode(object):#定义二叉搜索树的节点信息 def __init__(self, x): s...

2019-05-30 22:43:44 881

原创 shuffle过程——MRAPPmaster的任务监控调度机制

1. shuffle过程如下图所示2. 具体过程描述（1）MRAPPmaster启动map task进程（2）map task 向 MRAPPmaster汇报处理结果，结果文件所在位置，分区的信息（3）MRAPPmaster启动reduce task，并通知reduce task要取哪一个分区的数据、数据位置（即主机、文件具体位置）（4）reduce task 从内存中下载数据（...

2019-05-30 12:50:33 355

原创 mapReduce——切片(split)

一. map mask与切片的关系map task的数量是由切片的数量决定的，有多少个切片，就启动多少个map task。切片是一个逻辑的概念，指的是文件中数据偏移量范围。切片的具体大小应该根据所处理的文件大小来调整...

2019-05-30 12:05:29 992

原创 python 快速排序

1.快速排序思想也主要利用了分治法的思想，先将待排序序列分为两部分。如下图所示，若以4为划分的标准，划分为两部分之后，左边部分要比4小，右边部分要比4大。...

2019-05-29 23:57:42 77

原创校招准备

校招即将到来，感觉到自己还有很大的差距，厚积才能薄发。改变自己最简单，只是需要一些耐心。将自己复习过的基础知识整理下来，记录遇到过的问题和解决方法，多一份踏实和认真，这注定是需要去成长的时光，等你优秀起来！多去实践，多投简历，在面试中完善自己，全力以赴。...

2019-05-27 16:45:46 404

原创 python 归并排序

1. 归并排序算法思想：主要是使用了分治法的思想，将一个规模为N的问题分解为K个规模较小的子问题，这些子问题相互独立且与原问题性质相同。（1）分解成子问题问题缩小到一定规模就更容易解决，归并排序的分解如下图所示：（2）求解且合并第一步排序且合并的过程如下：合并到更高的层级：直到最后一组，整个数据有序：2. 以最后一步为例，详细解析：如何把两个已经有序的子序列利用辅助空间合...

2019-05-25 11:59:51 335

原创 python 插入排序

插入排序算法思想：每次将一个待排序的对象，按照关键码大小，插入到前面有序的一组对象上，有序的那组对象长度不断增加，直到待排序对象已经全部插入为止。...

2019-05-24 22:49:10 109

原创 python 选择排序

选择排序算法思想：如果有N个元素需要排序，先假设最小的值为第0位置上的元素，然后从下标为1至N个元素中找到最小的那个元素，如找到的最小值元素与第0位置上的元素值不相同，才进行交换。一轮之后，第一个元素就是有序的了。接下来是从下标为2~~N的元素中找出最小值…共比较N-1轮。python代码实现：class Solution: def selectSort(self, arr): ...

2019-05-24 16:20:15 103

原创数据样本类别不平衡

标题训练集中类别不平衡，会引起什么评估指标最不准确？准确度（Accuracy）（注意与精度区分）对于二分类问题来说，正负样例比相差较大为99:1，模型更容易被训练成预测较大占比的类别。因为模型只需要对每个样例按照0.99的概率预测正类，该模型就能达到99%的准确率。样本不均衡（数据倾斜）解决办法？数据层面1. 上采样：Smote过采样方法，基于插值来为少数类合成新的样本（构建新的样本...

2019-05-24 14:08:45 1009

原创 Linux基础

常用命令通过远程工具登陆到linux后，所在的位置是当前登录用户的家目录(home directory)。家目录的符号用~表示。linux的文件系统是一个树结构linux文件系统的树根成为根目录，使用符号"/“表示。使用符号”…“表示上级目录。使用符号”."表示当前目录。如果文件使用“.”开头，就表示隐藏文件。 linux的路径表示方式有两种，一种是绝对路径(以”/“开头...

2019-05-24 11:42:19 97

missTu~的博客