zzx_cs-CSDN博客

原创解决pyinstaller的lib not found问题

文章目录问题描述机器环境解决问题描述使用pyinstaller打包目标程序时，报一堆lib not found 错误，但是能正常生成.exe，在本机可以照常运行，但是在没有python环境下的机器无法运行。机器环境环境 win10 + python3.7.2解决这时开始寻找是哪些lib没有找到，经过寻找之后他的路径为:C:\Windows\System32\downlevel...

2019-05-06 13:16:31 3740

原创 mybatis plus逆向生成代码以及基本功能

文章目录序依赖配置核心依赖代码生成器相关依赖AutoGeneratorfreemarker模版引擎lombok代码生成代码生成器配置扫描mapper的接口扫描mapper的xml文件mapper CRUD接口service CRUD接口条件构造器序首先附上mybatis-plus官方文档本篇参考官方文档记录spring mvc项目接入mybatis plus的全流程及一些问题的解决方案，建议...

2019-04-09 12:40:57 4117 4

原创 SpringBoot+MyBatis(generator)+druid整合

文章目录1. mybatis+generator逆向工程生成代码1. pom文件2. 在resources下新建generator文件夹，在generator下新建generatorConfig.xml最近自己写了一个SpringBoot+Mybatis（generator）+druid的demo这是我的demo模板的地址1. mybatis+generator逆向工程生成代码1. po...

2018-12-29 09:32:00 325

原创 Spark集群

Spark 运行模式Spark 支持四种运行模式：Local 使用本地线程模拟，多用于测试Standalone spark默认支持的YARN 最具前景MesosSpark 集群提交模式Spark 支持两种提交模式：client 该提交模式 driver 进程在客户端启动cluster 该提交模式 driver 进程在任意 worker 节点上启动Spark 集群提...

2018-11-17 15:22:18 444

原创 Spark 的Shuffle过程详解(待续...)

文章目录1.Shuffle的作用是什么?2. Spark中shuffle的运行时机3.Spark目前的ShuffleManage模式及处理机制HashShuffle3.1 HashShuffle3.1.1 shuffle write3.1.2 shuffle read磁盘小文件过多带来的问题？3.2 优化后的HashShuffleManager3.3 两种HashShuffle的磁盘小文件数目的对...

2018-11-12 20:29:16 3031 2

原创 spark内核揭秘-spark资源调度+任务调度

文章目录简单回顾基本概念术语任务层面的术语任务配置及调度操作层面资源层面资源调度和任务调度详细流程细节把握1.workers集合为什么要是用HashSet集合？2.启动Executor的时候为什么不需要考虑数据的位置，为什么以轮循方式开启executor？3.为什么Spark比MapReduce快？总结简单回顾spark中不管是以client或者是以cluster的方式提交到Standalon...

2018-11-11 17:16:36 368

原创 spark内核揭秘-spark资源调度系统个人理解

文章目录开发Spark应用程序的大致流程资源调度的原理waitingDrivers集合waitingApps集合对waitingApps、waitingDrivers集合的监控资源调度的结论为什么轮训的方式比阻塞的方式好？轮训方式启动Executor的公式Spark运行在yarn集群上的2种提交方式clientcluster开发Spark应用程序的大致流程基于Spark写Application...

2018-11-05 20:29:07 473

原创 spark内核揭秘-spark任务调度系统个人理解

文章目录前置知识专业术语1. 与任务相关2. 与资源、集群相关联系(待改正)RDD的依赖关系1. 窄依赖2. 宽依赖3. 宽窄依赖的作用形成一个DAG有向无环图需要从final RDD从后往前回溯，为什么？为什么将一个个Job切成一个个stage？task为什么是pipeline的计算模式RDD存储的内容前置知识专业术语1. 与任务相关Application：用户写的应用程序job：一...

2018-11-04 14:02:04 374

原创 Spark中Standalone的两种提交模式（Standalone-client模式与Standalone-cluster模式）

文章目录1.Standalone-client提交任务方式执行流程总结2.Standalone-cluster提交任务方式执行流程总结须知Spark中Standalone有两种提交模式，一个是Standalone-client模式，一个是Standalone-cluster模式。1.Standalone-client提交任务方式提交命令：./spark-submit --master s...

2018-10-30 11:49:34 2225

原创 spark三类算子小总结

文章目录spark算子概述RDD有三种操作算子：1. Transformation（转换）2. Action（执行）3. 控制Transformation算子测试获取RDDMapfilterflatMap和reduceByKeysampleunionGroupByKeyjoinAction（执行）算子如何鉴别Action算子和Transformation算子控制算子控制算法的提出常用的控制算子pe...

2018-10-29 20:40:10 1221

原创 Spark本地开发环境配置(windows/Intellij IDEA 篇)

文章目录前言1.配置前提2.配置开始结束语前言Intellij IDEA是一个蛮不错的IDE，在java/scala领域深得人心。笔者之前使用的是Eclipse那一套开发环境，虽然也不错，但忍不住好奇心的驱使，折腾了一下IDEA，将自己摸索过程总结一下，方便Spark爱好者参考。1.配置前提JDK安装。请自行前往oracle官方网站下载安装，并在command命令行窗口确认java -...

2018-10-28 13:41:52 470

原创 Hive集群环境搭建之本地模式（多用户模式）

文章目录搭建集群的模式有三种1. 源码包下载及解压2. 集群的环境3. MySQL服务端的设置3.1 安装Mysql服务端3.2 开启服务3.3 进入MySQL修改权限3.4 需要将mysql的jar包拷贝到$HIVE_HOME/lib目录下4. 修改hive-site.xml文件(服务端的，即hive包所在的节点)5. 开启服务端的Metasrote服务6.客户端Hive源码包下载及解压6.1 ...

2018-10-25 19:12:34 844

原创 Hive集群环境搭建之本地模式（MySQL）

文章目录搭建集群的模式有三种1. 源码包下载及解压2. 集群的环境3. MySQL服务端的设置3.1 安装Mysql服务端3.2 开启服务3.3 进入MySQL修改权限3.4 需要将mysql的jar包拷贝到$HIVE_HOME/lib目录下4. 修改hive-site.xml文件5. 启动Hive6. 注意的地方搭建集群的模式有三种本地模式（derby）本地模式（mysql）多用户模式...

2018-10-25 18:54:17 684

原创 Hive集群环境搭建之本地模式（derby）

文章目录搭建集群的模式有三种1. 源码包下载及解压2. 集群的环境3. 修改hive-site.xml文件4.遇到的坑总结搭建集群的模式有三种本地模式（derby）本地模式（mysql）多用户模式1. 源码包下载及解压http://mirror.bit.edu.cn/apache/hive/2. 集群的环境…Active NameNodeStandby NameNo...

2018-10-25 18:34:14 849

原创 Hive原理详解

文章目录背景1.数据库的原理2.什么是Hive3.HQL与传统SQL的区别4. Hive的原理4.1 Hive简介5.Hive体系架构5.1 Hive的基本组成5.2 各组件的基本功能5.3 Hive和Hadoop的关系5.4 Hive的数据管理5.4.1 Hive中的内部表和外部表5.4.2 Hive中的临时表5.4.3 Hive中的分区表5.4.4 Hive中的分桶表5.4.5 Hive中的视...

2018-10-25 18:17:03 2526

原创 hadoop集群环境搭建之YARN HA的搭建

yarn的高可用的搭建只需要更改Hadoop包的基本配置文件即可。以下是角色的分配…Active NameNodeStandby NameNodeDataNodeZookeeperZKFCJournalNodeResourceManageNodeManagernode01√---√√√node02-√√√√√√√no...

2018-10-17 23:25:28 237

原创 MapReduce 1.x 及 2.x 架构解读

MapReduce 1.x 架构MapReduce 1.x 采用 Master/Slave 架构，由全局唯一的 Jobtracker 和多个 TaskTacker 组成，并且在Client中提供一系列的api供编程和管理使用。其中各个组件的作用是：JobTracker&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp

2018-10-17 13:07:42 423 1

原创 MapReduce原理

什么是MapReduce？&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Hadoop MapReduce是一个软件框架，基于该框架能够容易地编写应用程序，这些应用程序能够运行在由上千个商用机器组成的大集群上，并以一种可靠的，具有容错能力的方式并行地处理上TB级别的海量数据集。这个定义里面有着这些关键词

2018-10-17 11:10:38 273

原创 HDFS操作的Java API

一、环境搭建环境变量的配置HADOOP_HONE把HADOOP_HOME的bin添加到PATH权限问题：添加HADOOP_USER_NAME=root环境变量二、Eclipse的配置在Eclipse安装目录下dropins\plugins文件夹内添加如下hadoop-eclipse-plugin.jar包重启Eclipse2.重启Eclipse导入工程必需的jar包替换工程对...

2018-10-15 20:51:32 199

原创 hadoop之HDFS总结

HDSF（分布式存储学习总结）1.hadoop的历史大数据起源于Google发布的三篇论文：GFS、MapReduce和BigTable。hadoop的作者Doug Cutting根据Google的GFS提出了HDFS分布式，根据MapReduce提出了MapReduce，同时Doug Cutting还是全文搜索Lucene的创始者。Google的技术虽好但不开源。如果没有Doug Cu...

2018-10-15 15:52:53 330

原创查看HDFS集群存储内容的三种方式

1.在集群内NameNode节点使用命令行hdfs dfs -ls / 查看.2.在集群内客户端上操作。操作如上.3.在Eclipse上安装插件可以查看在Eclipse安装目录下dropins\plugins文件夹内添加如下hadoop-eclipse-plugin.jar包重启Eclipse2.重启Eclipse配置，如下：配置成功如下找到Map/Reduce Locat...

2018-10-14 13:00:56 3170 1

原创 hadoop集群环境搭建之集群客户端的搭建

本客户端是配置客户端连接高可用的完全分布式集群。问题的提出：为什么要配置客户端连接集群？ 1.这涉及两个操作HDFS集群的方式集群内操作和集群外操作 2.其中集群内操作就是在集群内某个节点上操作 3.集群外操作就是用集群之外的client与nameNode进行通信，完成操作.但是其群内操作会造成数据倾斜问题，严重时会导致节点的宕机。集群内操作，选择一台DataNode节点作为操...

2018-10-14 12:13:46 1056

原创 hadoop集群环境搭建之高可用的完全分布式集群环境搭建

搭建集群的模式有三种 1.伪分布式：在一台服务器上，启动多个线程分别代表多个角色(因为角色在集群中使用进程表现的) 2.完全分布式：在多台服务器上，每台服务器启动不同角色的进程，多台服务器构成集群 3.高可用的完全分布式本次搭建是在完全分布式的基础上搭建的，完全分布式请看完全分布式的搭建..首先为什么会提出高可用的完全分布式呢？因为以往的架构，毕竟是单节点(namenode),...

2018-10-12 23:22:38 567

原创 hadoop集群环境搭建之完全分布式集群环境搭建

搭建集群的模式有三种 1.伪分布式：在一台服务器上，启动多个线程分别代表多个角色(因为角色在集群中使用进程表现的) 2.完全分布式：在多台服务器上，每台服务器启动不同角色的进程，多台服务器构成集群 3.高可用的完全分布式这篇文章是对完全分布式集群的搭建，采用的是centOS6.5版本的系统我使用了四台虚拟机，暂且称为node1,node2,node3,node4;1.首先需要修改静态...

2018-10-10 19:57:55 411

原创 hadoop集群环境搭建之伪分布式集群环境搭建

搭建集群的模式有三种 1.伪分布式：在一台服务器上，启动多个线程分别代表多个角色(因为角色在集群中使用进程表现的) 2.完全分布式：在多台服务器上，每台服务器启动不同角色的进程，多台服务器构成集群 node01:NameNode node02:SecondaryNameNode DataNode node03:DataNode node04:DataNode 3.高可...

2018-10-09 21:55:31 291

原创初识大数据以及HDFS原理

初识大数据以及HDFS原理大数据出现的原因：随着web2.0时代的发展，互联网上数据量呈献爆炸式的增长，为了满足信息搜索的需要，对大规模数据的存储提出了非常强劲的需要。什么是大数据？短时间内快速的产生海量的多种多样的有价值的数据。在大数据的发展过程中IBM提出大数据的5V特点：Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）、Verac...

2018-10-09 19:53:14 341 1

qq_39131779的博客