eeeat_fish-CSDN博客

原创 HBASE--API

1.创建连接和admin使用静态方法块，每次只连接一次。 private static Admin admin=null; private static Connection connection=null; static { try { //1.获取配置文件信息 Configuration configurat...

2019-12-17 20:23:56 296

原创 HBASE--数据的删除和切分

HBASE–数据的删除和切分数据的删除数据的真正删除发生在两个部分：flush和compactionflush当对一个RowKey的数据进行两次写入的时候，这两条记录都在内存中还未flush进磁盘。当flush过后，时间戳在前的数据就会被删掉。put 'stu','1001','info:name','eatfish'put 'stu','1001','info:name','fish...

2019-12-06 23:17:34 635

原创 HBASE--详细架构&数据读写

详细架构：底层依赖于HDFSHbase依赖于Zookeeper，Zookeeper分担了HMaster一部分操作（读写数据DML部分），客户端只和ZK交互RegionServer用来维护Region的HLog类似于HDFS中的edits文件，方式数据的丢失store分为内存store和store file，内存store通过刷写写成一个个store file，存在HDFS中写流程...

2019-12-06 21:13:06 332

原创 HBASE--命令行操作

进入命令行模式[us@hadoop102 hbase-2.1.7]$ bin/hbase shellDDL–对表的基本操作创建一张表最少一定要有一个列族hbase(main):003:0> create 'student','info','info2'修改版本数查看版本情况hbase(main):006:0> describe 'student'修改成3...

2019-11-30 23:42:34 835

原创 HBASE基本介绍和安装配置

1.HBASE的逻辑结构2.HBASE的物理结构真正在存储的过程中是按照如下的格式存储的：图片中张三的信息被存为三条内容，第四条内容为对“phone”进行修改，其时间戳和增加信息时的时间戳不同。使用时需要把Windows和Linux的系统时间进行同步3.数据模型3.1 Name Space命名空间，类似于关系数据库中的database的概念，每个命名空间下有多个表，HBASE有两...

2019-11-29 21:14:05 273

原创 Spark流程的内部实现

Spark流程的内部实现1 Spark核心组件回顾1.1 DriverSpark驱动器节点，用于执行Spark任务中的main方法，负责实际代码的执行工作。Driver在Spark作业执行时主要负责：将用户程序转化为job在executor中间进行调度任务（task）跟踪executor的执行情况通过UI展示查询运行情况1.2 ExecutorExecutor实际上是一个JV...

2019-10-21 15:00:30 264

原创 Spark源码-部署流程

Spark的部署流程上图在新版的spark源码中有些许调整，但只是一些参数和函数位置的调整，整体流程还是这样的。

2019-10-20 15:25:45 277

原创 DStream的转化和输出

DStream的转化和输出1.无状态的转化处理只关心当前采集周期内的数据，上个周期采集到的数据不做保留和处理2.有状态的转化如上图，第一个采集周期5s内的数据，如果需要拿去和第二个5s内的数据进行交互，就叫做有状态的转换。否则就是无状态的操作。例子：依旧是统计单词的个数，之前只能统计一个采集周期内的单词的个数，现在可以统计所有的单词的个数。需要注意的点：使用updateStat...

2019-10-19 21:34:58 1703

原创 SparkStreaming-实时数据采集

1.SparkStreaming的架构2.实例一个实时计算的wordcountobject WordCount { def main(args: Array[String]): Unit = { //使用sparkstreaming来完成wordcount //spark的配置对象 val conf = new SparkConf().setMaster("l...

2019-10-19 15:34:28 967

原创 spark之累加器和广播变量

spark的三大数据结构RDD：分布式数据集广播变量：分布式只读共享变量累加器：分布式只写共享变量例子：对一个list中的所有值进行相加首先上图中红色部分框出来的代码，看上去逻辑没有什么大问题，但是输出的结果sum=0。这是因为，sum在Driver中被定义，在不同的executor中计算，每个executor得到值既不能彼此相加，也不能传回Driver输出，所以导致Driver中su...

2019-10-17 16:00:30 319

原创 Spark之RDD

Spark之RDD在介绍RDD之前，先从java的IO讲起会比较容易理解1.Java IOJava的输入可以分为字节流输入（rar,zip,dot,png,jpg）和字符流输入（txt）现有创建一个字节流输入：//文件输入流InputStream in = new FileInputStream("XXXX")；这样输入很慢很慢，所以就有了下面的缓冲流InputStream b...

2019-10-14 23:55:36 447

原创 Spark之概述和集群的部署

1.spark的历史1.1 Hadoop：提到spark就要提到Hadoop，Hadoop里程碑式的一点就是发布了Hadoop2.X，提出了yarn。yarn做的工作，就是把资源调度和任务调度完全的解耦了，这样整个框架的和拓展性就大大的增强了。不然按Hadoop1.X的版本，MapReduce是和Hadoop完全耦合的，是无法被替换的。1.2 sparkspark是基于Hadoop1...

2019-10-03 16:53:25 164

原创 Hadoop总结---相关面试题

Hadoop总结—相关面试题1. 入门1.1 简要描述如何安装配置Apache的一个开源hadoop使用root账户登录修改ip修改host主机配置SSH免密登录关闭防火墙（1-5可以简单说成准备一台服务器）安装JDK解压Hadoop安装包配置Hadoop核心文件：hadoop-env.sh,core-site.xml,mapred-site.xml,hdfs-site.xm...

2019-09-29 22:09:27 404

原创 MapReduce扩展案例

MapReduce扩展案例1.倒排索引案例（job的串联）需求：现在有下面三个文件，需要建立搜索索引期望的输出是（带索引的wordcount）：us c.txt–>2 b.txt–>2 a.txt–>3seoho c.txt–>1 b.txt–>3 a.txt–>1tomoon c.txt–>1 b.txt–>1 a.txt–&gt...

2019-09-26 17:08:36 285

原创 Hadoop之优化策略

Hadoop之优化策略1.MapReduce速度慢的原因MapReduce程序效率的瓶颈在于两点：计算机性能IO操作优化a. 数据倾斜b. Map和Reduce数设置不合理c. Map运行时间太长，导致Reduce等待过久d. 小文件过多e. 大量的不可分块的超大文件f. 溢写的次数过多g. merge（归并）的次数过多2.MapReduce优化方法MapReduce...

2019-09-25 23:07:35 302

原创 Hadoop之Yarn资源调度器

Hadoop之Yarn资源调度器Yarn是一个资源平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作平台，而MapReduce等运算程序相当于运行于操作系统之上的应用程序。是Hadoop2.X之后才增加的新功能。1.基本架构Yarn主要由：ResourceManager、NodeManager、ApplicationMaster和Container等组件构成简单来说：Reso...

2019-09-24 15:24:23 258

原创 Hadoop之数据压缩

Hadoop之数据压缩1.概述压缩技术能够有效的减少底层存储系统（HDFS）读写字节数。压缩提高了网络带宽和磁盘空间的效率。在运行MR程序时，I/O操作、网络数据传输、Shuffle和Merge要花大量时间，有其是数据规模很大和工作负载密集的情况下，因此，使用数据压缩显得非常重要。可以在MapReduce的任意阶段启用压缩。不过，但是它对性能的提升和节省并非没有代价–增加了CPU的负担。压...

2019-09-23 22:44:11 236

原创 Hadoop之MapReduce---Shuffle的详细工作流程

接文章：Hadoop之MapReduce3.2 Shuffle的详细工作流程在经过了上述过程之后，可以了解一下详细的Shuffle的工作流程。3.2.1 Shuffle的前半部分客户端提交给yarn，然后yarn给一个id，客户端把信息提交后，yarn再继续任务要开几个MapTask是由Yarn决定的（切片数量）。一个RecordReader只处理一个切片，一个MapTask也只对应...

2019-09-21 14:50:32 2336

原创 Hadoop之MapReduce---自定义InputFormat

自定义InputFormat的代码实现无论HDFS还是MapReduce，在处理小文件时效率都很低，可以自定义InputFormat实现小文件的合并。1. 需求将多个小文件合并成一个SequenceFile文件，SequenceFile里面储存着多个文件，存储的形式为：文件路径+名称=key，文件内容=value。2. 输入准备几个文件，名字内容随便，放入input文件夹中。one.t...

2019-09-18 19:51:39 379

原创 Hadoop之MapReduce

1：MapReduce概述1.1 MapReduce定义MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。1.2 MapReduce的优缺点1.2.1 优点–简单1.2.1.1 MapReduce易于...

2019-09-16 23:00:12 608

原创 Windows下hadoop的配置（hadoop2.7.7）

1.上次linux配置时下载的hadoop包，解压到一个文件夹里（不要带中文）下载地址：Hadoop2.7.72.下载JavaJDK的Windows版本JavaJDK安装到一个文件夹中，记住目录不要含有空格3.配置环境变量：3.1 在系统变量中增加一个HADOOP_HOME,地址是解压后文件夹的地址3.2 再在系统变量的Path中增加一句话3.3 在系统变量中增加一个JAVA...

2019-09-10 16:06:43 2738

原创 Hadoop之HDFS

1.HDFS的概述–Hadoop Distributed File System1.1 HDFS的使用场景：适合一次写入，多次读出的场景，并且不支持文件的修改。适合用来做数据分析，不适合用来做网盘应用。1.2 优缺点1.2.1 优点：高容错性：自动保存多个副本，某个副本丢失后，可以自动回复适合处理大数据：能处理GB、TB、甚至PB级别的数据。能处理百万规模以上的文件数量。可构建...

2019-09-09 17:25:50 271

原创 Hadoop的简介、安装配置和集群搭建（hadoop2.7.7）

1.框架介绍1.1 HDFSNameNode：存储文件的元数据，如文件名，文件目录结构，文件属性，以及每个文件的块列表和块所在的DataNode等。等于就是一个目录，DataNode：在本地文件系统存储文件块数据，以及块数据的校验和。Secondary NameNode：用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS远数据的快照。类似于NameNode的副本。1.2 ...

2019-09-01 17:05:34 1746

原创 Anaconda的安装

安装了几次Anaconda，每次一堆pip install之后都会因为各种原因把电脑搞炸。刚重装完新系统，又需要使用这个环境，记录一下安装过程。下载地址：https://www.anaconda.com/distribution/#download-section安装一开始没什么好说的，双击上面的图标，按提示下一步->同意->下一步->填写安装目录这一步按默认...

2019-07-29 23:42:40 641

原创 Linux的一些笔记（指令）

VIM切换到某一行：set nu#回车20 #到第二十行shift+g#回车G #定位到首行gg #定位到最后一行u #撤销上一步的操作用户管理用户的配置文件（用户信息）---------/etc/passwd组配置文件（组信息）--------/etc/group口令配置文件（密码和登录信息，加密文件）--------/etc/shadowlog...

2019-07-28 00:12:24 291

原创 SecureCRT的配置

SecureCRT的配置1. 安装关于SecureCRT的安装和破解可以参考下面这篇文章，除了文章中的版本，secureCRT8.5也亲测有效.https://blog.csdn.net/xxujia/article/details/813488482. 连接2.1 新建会话：2.2 输入主机名和用户名主机名可以在linux中使用命令ifconfig来查看端口号就是22点...

2019-07-25 21:57:25 312

原创配置Xshell6.0和Xftp6.0(CentOs 7）

配置Xshell和Xftp1. 下载Xshell和Xftp进入官网：https://www.netsarang.com/选择免费版下载：填写以下个人信息，下载地址会分两次发送到你的邮箱：2. 安装Xshell傻瓜式安装，同意条约-下一步-下一步-完成3. 连接Xshell和Linux3.1 新建会话3.2 查看虚拟机的ip在linux使用ifconfig来查看ip3....

2019-07-25 21:05:40 382

原创图像分割

1.图割图割图像分割的思想是用图来表示图像，并对图进行划分以使割代价EcE_cEc最小。在用图表示图像时，增加两个额外的节点，即汇点和源点；并仅考虑那些将源点和汇点分开的割。建立有向图，初始化它的权重，使用最大流法切割这个有向图：from pygraph.classes.digraph import digraphfrom pygraph.algorithms.minmax impor...

2019-06-11 15:15:37 221

原创 LeNet卷积模型实现Mnist手写体训练

LeNet卷积模型实现Mnist手写体训练摘要LeNet卷积模型的模型网络训练预测正确率和分析-1. Mnist数据集的识别结果-2. 外部数据的识别结果及分析-3. 总结代码LeNet卷积模型的模型：LeNet卷积模型共七层。一个典型的神经网络是全连接的，每个节点各自使用一套参数。卷积神经网络采用局部连接和参数共享的方式连接网络，即k层的每个节点只与k+1层的部分节点相...

2019-06-01 20:48:21 596

原创 KNN算法和Dense SIFT

1.KNN算法kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。class_1 = 5.6 * randn(n,2)class_2 = 3 * randn(n,2) + array([-5,5])class_1 = 5.6 * randn(n,2)class_2 = 3 * randn(n,2...

2019-05-19 23:09:50 767

原创 Bag of features : 图像特征词典

Bag of features : 图像特征词典基础流程特征提取学习“视觉词典”这一步的流程是通过K-means算法找到聚类中心：K-means聚类算法实现visual vocabulary/codebook的关键其中，聚类算法获得的聚类中心作为codevector（视觉单词），一旦训练集准备的足够充分，训练出来的码本将具有灵活性。K-means算法的基本流程：1.初始化...

2019-05-10 23:49:22 553

原创并查集/LeetCode 990题

并查集/LeetCode 990题并查集并查集在网上已经有非常多的介绍了，这里就简单的说一些概念，贴上基本的函数模型和算法框架。概念：用来判断两个节点之间是否存在关系。通过树桩结构，一个节点只需要直到自己上面的节点是谁即可，根节点的上面一个节点是自己。当两个节点对应同一个根节点的情况就说明这两个节点是可以通过一定的路径连接在一起的。首先int pre[]数组对应的就是每个节点的上一层节点...

2019-05-02 15:09:25 649 1

原创 DFS深度优先算法/LeetCode 93题

DFS深度优先算法/LeetCode 93题从一个顶点开始，沿着某条线路遍历到该路径的末端，然后回溯，再沿着另一条线进行同样的遍历，直到所有顶点都被遍历完。算法思路：1、任选一顶点作始点 v ，访问该顶点2、沿深度方向，依次遍历 v 的未访问邻接点——直到本次遍历结束3、一次遍历完时，若有未访问顶点：任选一个未访问顶点作起始点，回到第二步总的来说就是一条路走到黑，然后再一步步往回退，退...

2019-04-28 23:10:29 386

原创基础矩阵和照相机矩阵

算出基础矩阵和原理推导过程两张图像的基础举证是什么样的选择距离远近角度不同室内交汇产生不同的点（三维点X =sfm. trienmulete） compare_P_from_fundemental§...

2019-04-17 14:44:00 1668

原创 python+OpenCV 相机标定

相机标定目录原理相机标定结果流程简介实验过程总结代码及调试问题相机标定在机器人视觉和畸变校正上都是很关键的一部分，接下来用张正友相机标定法标定我的手机（Vivo xpaly5A）后置摄像头。原理首先先简单的了解一下相机标定的原理。摄像机标定(Camera calibration)简单来说是从世界坐标系换到图像坐标系的过程，也就是求最终的投影矩阵 P 的过程。一般来说，标...

2019-04-12 17:20:13 26152 28

原创 priority_queue/LeetCode 23题

priority_queuepriority_queue的本质是一个堆，堆的概念就是一个存储数据的数组。堆可以看成是一个完全二叉树。其中，根节点最大的堆是大根堆，根节点最小的堆是小根堆。堆中某个节点的值总是不大于或者不小于其父节点的值。算法思想：交换。例如在一个已经是大根堆的堆中插入一个新的值，首先把其插入到堆一个子节点上，称为新的一个节点，如果这个值已经比其父节点要小了，那么就成了。如...

2019-04-09 15:32:02 817

原创 20190407-ACM学习记录

Day1http://www.cppblog.com/uriel/articles/101596.html 按着这个顺序做的，刚开始接触ACM，都是些简单的题目。1003：第一题，看英文老跑神，读题读半天，研究输入输出研究了半天，但是题还是蛮简单的。#include<stdio.h>int becount(double n){ double sum=0; doub...

2019-04-07 23:05:11 148

原创增强现实的简单实现（立方体、茶壶和老鼠的动态实现）

增强现实的简单实现（立方体、茶壶和老鼠的动态实现）环境搭建：OpenGL+OpenGL.accelerate去下载合适自己python版本的OpenGL和OpenGL.accelerate的.whl文件，然后使用pip install安装。pygame（可以直接pip install安装）立方体效果图：实现代码：from pylab import *from PIL i...

2019-04-06 23:40:04 1020

原创 C++多态/C语言模拟多态

目录C++多态C语言模拟多态C++多态C++中的多态，从使用的角度上来概括，就是在父类的某函数前加上关键字virtual，然后在子类中重写这个函数。在调用的过程中，会根据对象的类型来决定调用哪个函数，如果对象类是父类就调用父类的函数，如果对象类是子类就调用子类中的函数。首先，来看一组代码：class One {public: void xion() { std::cout ...

2019-04-03 20:41:26 296

转载 Manacher算法

Manacher算法转载自：作者：bestsort原文：https://blog.csdn.net/bestsort/article/details/81637464Manacher用于求解最长回文子串。所谓回文串，便是"abccba"或是“斗鸡山上山鸡斗”这一类的，你会发现从左到右和从右到左读都是同样的内容。而最长回文子串便是求出给定串中最长的那一个回文串。在没了解Manacher...

2019-04-03 16:36:33 134

LeNet-5.zip

增强现实的实现

mapreduce.rar

空空如也