lspshun-CSDN博客

原创基于华为云EulerOS2.8的GaussDB T 单机搭建

环境主备库云环境规格操作系统主机名 IP地址端口号主库 2vCPUs 4GB EulerOS 2.8 64bit with ARM ecs01 公网：121.36.x.x私网：192.168.0.9 1888 安全组开放端口机器添加端口1888主备机准备工作创建用户及用户组groupadd dbgrpuseradd -g dbgrp -d /home/omm -m -s /bin/bash omm修改OM

2020-05-17 14:58:15 1303

原创什么是即席查询及即席查询实现

即席查询概念:百度对即席查询的解释:即席查询（Ad Hoc）是用户根据自己的需求，灵活的选择查询条件，系统能够根据用户的选择生成相应的统计报表。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的，而即席查询是由用户自定义查询条件的。个人对即席查询的理解:尽可能快的执行自定义的SQL语句(可能无法提前运算和预测) 重点关注 1.数据存储格式 ...

2019-03-29 18:54:37 17060

原创解读 spark rdd

1 Spark的RDD提到Spark必说RDD，RDD是Spark的核心，如果没有对RDD的深入理解，是很难写好spark程序的，《Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing》这篇论文是Spark最为准确最为经典的描述，在网上可以很容易的搜到pdf版，建...

2019-03-27 15:54:27 400

原创 StructuredStreaming

一，概述Structured Streaming是一个可扩展和容错的流处理引擎，并且是构建于sparksql引擎之上。你可以用处理静态数据的方式去处理你的流计算。随着流数据的不断流入，Sparksql引擎会增量的连续不断的处理并且更新结果。可以使用DataSet/DataFrame的API进行 streaming aggregations, event-time windows, stream...

2019-03-27 15:51:54 664

原创 spark streaming 使用心得及源码阅读

1，基本使用主要是转换算子，action，和状态算子，这些其实，就按照api手册或者源码里接口介绍结合业务来编码。其实，想用好spark streaming 掌握spark core，spark rpc，spark 任务调度，spark 并行度等原理还非常有必要。2，中间状态缓存说到中间算子大家肯定都会想到UpdateStateByKey等状态。里面很多注意事项，比如顺序性，key...

2019-03-27 15:49:28 335

原创解读 spark on yarn

/ 为什么需要 Yarn？ /Yarn的全称是Yet Anther Resource Negotiator（另一种资源协商者）。它作为 Hadoop的一个组件，官方对它的定义是一个工作调度和集群资源管理的框架。Yarn最早出现于Hadoop 0.23分支中，0.23分支是一个实验性分支，之后经过了几次迭代，最后发布于2014年6月的0.23.11版本(该分支的...

2019-03-27 15:44:58 461

原创使用idea以yarn-client 提交任务到yarn

用idea提交任务到yarn，这样测试的时候不用频繁打包。构建工程的命令：mvnarchetype:generate \-DarchetypeGroupId=org.scala-tools.archetypes \-DarchetypeArtifactId=scala-archetype-simple \-DremoteRepositories=http://scala-too...

2019-03-27 15:38:06 1042

原创监控spark应用程序的方法

目前有好几种监控spark应用程序的工具：web UIs，指标系统和外部监控仪。一，web界面1，界面的基本介绍每一个Spark应用程序都会启动一个spark ui，默认端口是4040端口，用于展示对应用程序有用的信息。包括以下信息：1)，stages和tasks列表。2)，RDD大小的总概和内存使用。3)，运行环境信息。4)，运行的Executors状态。可以在浏...

2019-03-27 15:36:13 1220

原创 Spark的调度系统

一，简介Spark调度机制可以理解为两个层面的调度。首先，是Spark Application调度。也就是Spark应用程序在集群运行的调度，应用程序包括Driver调度和Executor调度。其次，就是每个Spark Application都会有若干Jobs(Spark Actions)，然后这些job是以何种机制，在Executor上执行的，也是需要一个调度管理的机制，该层面调度也可...

2019-03-27 15:30:12 296

转载数仓理论

转自：http://blog.csdn.net/zyj8170/article/details/52920021数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持（Decision Support）。其实数据仓库本身并不“生产”任何数据，同时自身也不需要“消费”任何的数据，数据来源于外部，并且开放给外部应用，这也是为什么叫“仓库”，而不叫“工厂”的原因。因此数据仓库的基本架...

2019-02-28 19:45:23 4536

原创 sqoop批量脚本导入报错ERROR tool.ImportTool: Import failed: java.io.IOException: No columns to generate for C

问题原因：数据库的IP/用户名/密码/数据库名称错误导致连接不上ERROR tool.ImportTool: Import failed: java.io.IOException: No columns to generate for ClassWriter at org.apache.sqoop.orm.ClassWriter.generate(ClassWriter.ja...

2019-01-16 20:46:50 8910

原创 Sqoop:Import failed: java.lang.ClassNotFoundException: org.apache.hadoop.hive.conf.HiveConf

将mysql中的数据导入到hive中报错：ERROR tool.ImportTool:Import failed: java.io.IOException: java.lang.ClassNotFoundException: org.apache.hadoop.hive.conf.HiveConf这是因为sqoop需要一个hive的包，将hive/lib中的hive-common.jar...

2018-12-11 20:48:16 593

原创 sqoop import 时报错Exception in thread "main" java.lang.NoClassDefFoundError: org/json/JSONObject

这是因为sqoop缺少java-json.jar包.去http://www.java2s.com/Code/Jar/j/Downloadjavajsonjar.htm下载，然后放到sqoop/lib目录即可。

2018-12-11 20:46:58 2391 1

原创 java实现二分查找IP 返回指定的code

package Test;import java.io.*;import java.nio.charset.StandardCharsets;import java.util.LinkedList;/** * @Author: lsp * @Date: 2018/12/7 17:53 * @Description: */public class IPUtil { /...

2018-12-07 19:47:09 528

原创 HDFS 总结

目录课程大纲（HDFS详解） 21. HDFS前言 32. HDFS的概念和特性 33. HDFS的shell(命令行客户端)操作 43.1 HDFS命令行客户端使用 43.2命令行客户端支持的命令参数 43.2 常用命令参数介绍 54. hdfs的工作机制 84.1 概述： 84.2 HDFS写数据流程 94.2.1 概述 94.2.2 详细步骤图...

2018-09-08 17:29:02 2054 1

原创 Hadoop 入门总结

目录大纲（HADOOP） 21. HADOOP 快速入门 3什么是HADOOP 3HADOOP产生背景 3HADOOP在大数据、云计算中的位置和关系 3国内外HADOOP应用案例介绍 4国内HADOOP的就业情况分析 5HADOOP生态圈以及各组成部分的简介 6分布式系统概述 62. HIVE快速入门 72.1 Hive基本介绍 72.2 Hive的...

2018-09-08 17:20:38 6094

原创什么是RPC?轻量级RPC框架开发

1 PRC原理RPC（Remote Procedure Call Protocol）——远程过程调用协议，它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。RPC采用客...

2018-09-08 17:06:36 750

原创 zookeeper

目录 1 zokeeper 概念2 zookeeper 集群机制3 安装部署4 zookeeper 机构和命令5 zookeeper的监听工作机制6 实现分布式应用的(主节点HA)及客户端动态更新主节点状态7 zookeeper 原理选举机制9 zookeeper动态感知节点示意图10 服务器动态上下线程序的工作机制11 集群部署服务器情况...

2018-09-07 11:32:14 321

原创互联网架构的演变

目录 1 分析2 淘宝技术演变，摘自《淘宝技术这十年》3 技术发展历程总结1 分析高并发已经成为当前互联网企业面临的巨大挑战！例如2015年“双十一”全球狂欢节正式落下帷幕，天猫最终交易额也达到了创纪录的912.17亿元！参与交易国家和地区达到232个，双十一支付宝最高峰每秒处理的交易笔数是8.59万笔，在线人数峰值达到4500万。淘宝的核心技术（国内乃至国际的Top，...

2018-09-07 11:10:29 517

原创分享关于AI的那些事儿

机器人很厉害给人治病的ibm 的Watson 沃森,击败世界围棋冠军的AlphaGo阿尔法狗陪你聊天的机器人、数据标注、木马识别、恶意访问拦截、智能家居……但是17年首次出现了机器人获得国籍这个机器人叫做索菲亚这是一个类似人类的机器人,向这位“女性”机器人敞开怀抱的竟然是一个月前才允许女性国民开车的沙特。Sophia（索菲亚）是一台类人机器人她不仅口才出众，对答如流，而且还拥有以...

2018-09-07 11:02:57 457

原创 hadoop 开发基础

目录rz的使用查看有谁在线vi 快捷键文件权限的操作配置免密码登陆后台服务管理iptable 防火墙linux 中的软件安装本地yum安装仓库配置rz的使用文件上传到linux 是上传到当前目录所在的文件夹yum list|grep lrzszsudo yum -y install lrzsz.x86_64命令:(参数 -y 如果linux上...

2018-09-07 10:58:26 723

原创 Hadoop datanode正常启动，但是Live nodes中却缺少节点的问题

打开配置文件hdfs-site.xml找到dfs.datanode.name.dir这个属性，或者dfs.data.dir具体看你用哪个设置的数据存储路径。分别在master, node1, node2中更改此属性 #master中的值 <property> <name>dfs.datanode.data.dir</name> <value...

2018-09-05 17:02:09 1470

原创 Hadoop Ha 高可用集群搭建

0 .前期准备集群规划1.修改Linux主机名 hostname xxx2.修改IP 3.修改主机名和IP的映射关系 /etc/hosts ######注意######如果公司是租用的服务器或是使用的云主机（如华为用主机、阿里云主机等） /etc/hosts里面要配置的是内网IP地址和主机名的映射关系 4.关闭防火墙 service iptables st...

2018-09-04 11:35:01 203

原创 hadoop NameNode和DataNode运行机制

1）第一阶段：namenode启动（1）第一次启动namenode格式化后，创建fsimage和edits文件。如果不是第一次启动，直接加载编辑日志和镜像文件到内存。（2）客户端对元数据进行增删改查的请求（3）namenode记录操作日志，更新滚动日志。（4）namenode在内存中对数据进行增删改查2）第二阶段：Secondary NameNode工作（1）...

2018-08-31 22:18:37 1798

原创 hadoop hdfs 读写流程

概述开始之前先看看其基本属性，HDFS（Hadoop Distributed File System）是GFS的开源实现。特点如下：能够运行在廉价机器上，硬件出错常态，需要具备高容错性流式数据访问，而不是随机读写面向大规模数据集，能够进行批处理、能够横向扩展简单一致性模型，假定文件是一次写入、多次读取缺点：不支持低延迟数据访问不适合大量小文件存储（因为每条元数据占...

2018-08-31 21:55:39 14304 4

原创 Mapreduce Shuffle运行机制

概念:mapreduce中 map阶段处理的数据传递给reduce阶段是mp框架中最关键的一个流程叫做shuffleshuffle :洗牌核心机制 :数据分区排序缓存其实就是将maptask 输出的处理的结果数据分发给reducetask 分发的过程中进行了分区排序shuffle 是MR处理中额一个流程每一个处理步骤是分散在各个maptask 和reducetask上...

2018-08-31 20:38:26 518

原创 Hadoop NameNode 高可用 (High Availability) 实现

在 Hadoop 的整个生态系统中，HDFS NameNode 处于核心地位，NameNode 的可用性直接决定了 Hadoop 整个软件体系的可用性。从内部实现的角度对 NameNode 的高可用机制进行详细的分析，主要包括 NameNode 的主备切换实现分析和 NameNode 的共享存储实现分析在 Hadoop 1.0 时代，Hadoop 的两大核心组件 HDFS NameNode 和...

2018-08-30 15:39:29 3804

原创 hadoop中，一个datanode可以放多个相同的block吗

一般出于安全性和高可用性考虑，并不会把一个block的多个副本放在同一个datanode上。但是也不是绝对，例如三个datanode，副本默认是三个的话，那么正常来说，每个节点上存储一个block副本是最好的（安全、可靠性高，单节点出现问题，并不会丢失数据），如果把3个副本都放在一个节点上，一旦这个节点出现问题，数据就可能丢失了；如果副本数是5个的话，那么就存在同一个datanode有多个副本了，...

2018-08-30 10:02:25 2592

原创 linux export 变量

export用于声明一个环境变量: export variable=value 该环境变量只在本进程和其子进程中可以访问。如果是在系统级的配置文件中，如/etc/profile中export 一个变量，那么这个变量就会在整个系统运行期间都起作用。如果在用户级~/.bash_profile之类的文件中，则每次启动shell都会去读这个文件，所以每次打开...

2018-08-29 22:44:33 2320

原创 linux 基础总结

Linux的网络环境主机名：hostname网路映射/etc/hosts将IP地址与主机名对应重启网络：service network restart|status常用命令：1创建mkdir-p touch vi2删除rmdir--删除空目录rm-rf递归删除f不提示直接确认删除3复制cp-r递归进行复制4移动mv重命名5查看cat more less head t...

2018-08-29 21:02:07 210

原创 hadoop 伪分布式搭建 centos6.5

HDFS 一次写入多次读取不能修改先删除再上传 Hadoop 伪分布式搭建在单台机器上用Java进程模拟出的多台服务器方法适合用于学习步骤创建hadoop用户给定权限 sudo vi /etc/sudoers root hadoop ALL=(ALL) ALL 修改主机名称配置相应的IP映射 hostname hh vi /etc/h...

2018-08-29 20:44:23 297

原创 Spring SpringMVC Mybatis 整合

简介:spring是一个开源框架,是轻量级的,使用Javabean来完成以前EJB完成的事情简单来说spring就是一个轻量级控制反转(IoC), 依赖注入(DI)和面向切面(AOP)容器框架,由spring来负责控制对象的生命周期和对象间的关系控制反转的意思是将设计好的对象交给容器控制,而不是传统的在对象内部直接控制,谁控制谁，控制什么：传统Java SE程序设计，我们直接在对象...

2018-08-23 22:21:23 180

原创 springMVC 基于Maven Eclipse 环境搭建

新建 Maven webapp project项目名称上右键进入propertiesspringmvc-servlet.xml文件<?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="h...

2018-08-15 18:22:54 190

原创 MyBatis的返回参数

MyBatis的返回参数类型两种1. 对应的分类为：resultMap:resultType:2 .对应返回值类型：resultMap:结果集resultType:int,string ,long ,class3. 注意点：在MyBatis进行查询映射时，其实查询出来的每一个属性都是放在一个对应的Map里面的，其中键是属性名，值则是其对应的值当提供的返回类...

2018-08-15 15:43:39 715

原创 Hadoop启动报Error: JAVA_HOME is not set and could not be found解决办法

Hadoop安装完后，启动时报Error: JAVA_HOME is not set and could not be found.解决办法：修改/etc/hadoop/hadoop-env.sh中设JAVA_HOME。应当使用绝对路径。 export JAVA_HOME=$JAVA_HOME //错误，不能这...

2018-08-07 20:20:29 8927 3

原创遍历Map的几种方法

public class Test { public static void main(String[] args) { Map<Integer, Integer> map = new HashMap<>(); map.put(1, 2); map.put(2, 1); map.put(3, 3);// //1.遍历键值 Set<Entry...

2018-07-26 19:31:04 431

原创集合框架泛型

泛型:需要定义一个类,可以接收所有的数据类型,使用object可以达到要求,泛型只允许设置引用数据类型,如果要定义基本数据类型则可以使用基本数据类型的包装类完成,进行引用传递的时候，如果设置泛型则只能接收泛型设置的类型，但是这样做方法意义很受局限，如果不设置泛型，接收到的内容可以被随意修改，容易发生安全问题，对于以上问题解决，可以使用泛型通配符来完成， <?> 代表可以接收任意类型，但...

2018-07-26 16:11:38 210

原创 Java 多线程(单例设计模式)

单例设计模式:保证类在内存中只有一个对象怎么保证呢?1.使用private创建不让其它类创建本类的对象2.在本类中定义一个本类的对象 Singleton3.提供公共的访问方法 public static Singleton getInstance(){return s}单例写法有两种:(1)饿汉式开发用这种方式。 //饿汉式 ...

2018-07-21 21:26:19 1158

原创 Java 线程的操作方法 Thread类中的方法线程的优先级线程的同步和异步

线程的使用方法：Thread 类中的方法：休眠： sleep强制执行：join礼让： yield线程的优先级：默认的优先级 main方法中优先级5设置和取得 setPriority getPriority线程的中断 interrupt线程的同步与异步1线程的命名与取得线程的运行状态是不确定，如果在不确定的线程中操作一个线程只能依靠线程的名字,线程的名字...

2018-07-21 18:47:00 924

原创 Java 多线程编程

1 Java给多线程提供了支持,一条线程指的是进程中一个单一顺序的控制流,一个进程可以并发多个线程,每个线程执行不同的任务2.多线程使用了更小的开销, 充分利用了cpu3.进程包括由操作系统分配的内存空间 ,包含一个或者多个线程,线程不能独立的存在,是进程的一部分上图为线程的生命周期新建状态使用 new关键字和Thread类及其子类就绪状态:调用了start()方法之后的...

2018-07-20 20:10:01 604

IP二分查找测试和数据

项目开发流程人员说明

人才管理系统

空空如也