laughing1997-CSDN博客

原创 CDH6.0、6.1篇：8、CDH的 hive on spark配置及解析、优化

分三个章节1、版本展示2、CDH安装spark3、优化配置信息----------------------分割线----------------------------------------1、版本展示1.所有版本：https://www.scala-lang.org/download/all.html2.11.8版本：https://www.scala-lang.org/dow...

2020-03-29 17:25:56 8248 6

原创 CDH6.0、6.1篇：7、Hadoop端代码测试

配置了CDH对hadoop端进行代码测试POM文件的maven坐标<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>3.0.0</ver...

2020-03-29 16:55:11 552

原创 CDH6.0、6.1篇：6、CDH优化

- 1.MapReduce shuffle处理程序和IFile阅读器使用本机Linux调用，在安装了Hadoop本机库的Linux系统上。- 2.改善随机处理程序 1.您可以通过启用shuffle readahead来改进MapReduce shuffle处理程序的性能。这会导致TaskTracker或节点管理器在通过套接字将其发送到reducer之前预读取地输出。 2.要为YARN...

2020-03-29 16:52:10 1186

原创 CDH6.0、6.1篇：5、CDH的使用（hadoop ha、yarn ha）

本文分3个部分阐述1.使用CDH注意事项2.Hadoop HA 搭建3.YARN HA 搭建----------------------------------------分割线-------------------------------------------------------------1.使用CDH注意事项1.每台机器：根据aliyun提供的服务进行时间同步：ntpda...

2020-03-29 16:46:40 1550

原创 CDH6.0、6.1篇：4、CDH安装(包含HBase.HDFS.Hive.Hue.Impala.Oozie.YARN.ZooKeeper)

前置工作：在CDH安装之前必须保证NODE1主节点中的以下程序均已启动1.每台机器：根据aliyun提供的服务进行时间同步：ntpdate -u ntp6.aliyun.com 启动服务 systemctl start ntpd、systemctl restart ntpd 查看是否启动 ps -ef | grep ntpd 开机启动 systemctl enable ntp...

2020-03-29 16:32:02 1882

原创 CDH6.0、6.1篇：3、Cloudera Manager安装(只需要在NODE1做)

本文主要认真阐述在Cloudera Manager安装-------------------------------分割线----------------------------------------------------------------------Cloudera Manager安装(只需要在NODE1做)1.配置本地repo源 1.下载CM6.1的安装包，地址为： ht...

2020-03-29 16:01:52 606

原创 CDH6.0、6.1篇：2、MySQl配置文件my.cnf

此处针对mysql的配置进行说明两个文件：/etc/my.cnf 不带注释的配置信息/etc/my.cnf 带注释的配置信息-----------------分割线----------------------------------------------------------------------/etc/my.cnf 不带注释的配置信息[client]port = 3306...

2020-03-29 15:50:11 900

原创 CDH6.0、6.1篇：1、linux安装各种软件和配置

此文主要分两个部分一、安装 CentOS二、配置 CentOS--------------------分割线--------------------开始----------------------------------------一、安装 CentOS对拷贝后的node2和node3 分别进行以下修改1.uuidgen ens33 获取新的 UUID2.vim /etc/sysc...

2020-03-29 15:43:10 1656

最近一直在研究hbase源码，一直心心念念要把hbase源码在idea上面跑起来。方便自己调试查看，而且好好研究里面的测试用例，因为一直只是看hbasefsck这块源码，以及创建表等等。想再具体执行。期间编译源码，遇到不少坑。时间关系，不能一一阐述。总结性说几句：1、大数据的组件源码，maven或者构建项目的骨架软件版本非常重要。尽量选择版本旧，稳定版的。别用最新。本人亲测，从maven 3...

2020-03-16 00:40:22 2380

原创 cdh 5.12.1 集成kylin (apache-kylin-2.6.0-bin-cdh57)记录

环境：cdh5.12.1+jdk1.8我的hadoop，hdfs，mapreduce2，hbase，zookeeper spark的版本如下：spark我做了升级，升级到了SPARK2-2.1.0.cloudera1-1.cdh5.7.0.p0.120904-el6.parcel注意，cdh的组件。el6和el7的区别。就是el6是centos6.x版本的，el7是centos7.x版...

2019-12-23 22:34:23 603

原创 java怎么读取resources下面的JSON串文件

文件位置：package com.jt.ceshi;import java.io.*;import java.net.URL;public class ReadJSON { public static void main(String[] args) { String laststr=""; URL l1 = ...

2019-12-17 23:23:39 2008

原创 hdfs的FSImage和Edits文件

知识点1.当执行格式化指令时，会在指定的tmp目录下，生成dfs/name目录。此目录是namenode服务器存储元数据的目录2.当格式化后，启动HFDS前，会生成一个最初的fsimage_0000000000000000000文件3.在 dfs/data目录，这是datanode节点存储数据块的目录。4.元数据的存储目录和数据节点的目录的路径可以分开指定5.在dfs/na...

2019-07-15 10:37:11 999

原创 HDFS相关源码剖析

2019-07-15 10:34:48 359

原创 IDEA-2018版本的hadoop 2.7.1 插件安装教程(自制插件)

IDEA的hadoop插件配置教程版本要求：IDEA 2017年及2017年以后的版本。hadoop：2.7.x。（目前测试2.7.1没问题，由于是自己制作的插件，目前这些版本是可行的）插件下载地址：（由于找不到比较好的公链供大家下载，所以我把插件上传到QQ群。QQ群会自动同意的。需要的加群下载。文件就放在群文件里面）一：打开IDEA，进入Setting页面。找到Plugins-选择In...

2019-07-15 00:14:00 1284 2

原创 Spark组件之SparkContext原理源码剖析(乾坤大挪移第二层)

今天谈一下Spark比较重要的组件。文章有不足之处，多多指正。SparkContext三个重点：TaskScheduler，如何注册application，executor如何反向注册（重中之重）DAGScheduler的通信SparkUI显示的是什么，用的是什么服务器上流程图：TaskScheduler的创建流程如下：流程总结：启动CreateTaskSchedule...

2019-04-03 11:56:12 351

原创基于Spark案例，对Spark内核源码在Standalone提交模式的深度剖析 (乾坤大挪移第一层)

自己最近把spark的知识整理了一下，想要比较清晰的解释下他的初步内核源码机制。以方便自己后期查阅。文章中涉及的1、stage划分算法2、master资源调度算法3、task算法（数据优化，数据本地化）后期我会基于spark2.0版本的源码进行一次剖析，此次只是初步的，如有未尽事宜。请大家多多批评指正，我愿意接受一切意见，只要不是侮辱。啊啊哈。序言：基于下面这段初始代码谈执行过程。d...

2019-04-02 14:57:05 445

原创 Docker安装配置教程

之前docker很久就写了笔记了。后面因为家里有事，耽搁了一年。现在把这部分笔记重新上传一下。大家看看。Docker要求：lunix内核，要求3.8以上centos7Docker是一个进程，一启动就两个进程，一个服务，一个守护进程。占用资源就非常少，启动速度非常快，1s。一台机器上vm，3到10个实例。docker 100到10000。1.核心概念：1）镜像images，事先做好一...

2018-11-20 16:55:53 159559 17

原创 maven构建发布的多种方式及微服务部署注意点总结

在开发环境下，原有代码一直如常运行。最近要把它部署到云上。遇到了不少问题。毕竟在项目部署过程中，涉及到maven或者gradle之间的深刻理解，才能克服开发环境正常，部署出现各种问题的解决能力。在此，以下文章权当记录，但是只是针对maven这块，gradle以后再去讨论。预防后期自己的遗忘。目录如下：打包文件的说明IDE开发工具打包的区别：微服务，eclipse和IDEA区别maven...

2018-11-07 16:43:29 3493

原创 redis迁移数据之槽道讨论

针对redis3.0之前的版本。在哨兵集群管理的主从结构的集群，结构如下哨兵主从集群和三个单独redis节点的集群同时存在。迁移数据; hash一致性,扩容时,迁移数据大量减少;但是这种迁移是运维工程师做不了的,需要了解key值计算过程当前结构的redis节点的利用率太低真正接收数据做数据处理的节点,9个节点中,接收key值存储的只有3个redis3.0版本之后，集群的结构如下：...

2018-10-23 21:36:01 3231

原创 java-线程及NIO浅谈

这里简单谈一下线程，但是要把一个线程谈好，要结合NIO，结合锁机制一起学习，记忆才会深刻。所以，以下说明。结合这三个方面的线程和NIO进行谈谈，锁部分另外再谈。1、进程1.1概念进程=程序+执行。当把一个程序从磁盘中加载到内存中，cpu去运算和处理这个进程（运行起来的程序就是进程）。从三个维度来看进程的模型维度说明从内存维度每个进程都独占一块地址空间，cpu处理进程...

2018-10-19 10:30:31 854

原创 JVM总结

1. JVM中常用参数：Xss 设置每个线程的栈内存大小-Xmn 设置新生代大小-Xms 设置堆内存的初始内存大小-Xmx 设置堆内存的最大可用大小例如： -Xss128k -Xmn5M -Xms10M -Xmx10M表示每个线程的大小是128k，新生代5M，可用堆内存10M，最大可用内存为10M2. 栈内存溢出如果方法运行时需要的栈的深度超过了虚拟机所允许的最大的栈的深度，那么会出...

2018-10-19 02:04:53 265

原创 java内存工具VisualVM的简单使用以及与Idea集成

一、idea集成1.打开设置windowsFile->SettingMacOSIntelij Idea -> Preferences12.打开插件仓库Plugins -> Browers Repositrories在这里插入图片描述3.搜索VisualVM Launcher4.安装后，重启Idea5.安装完成后，在原来的Run和Debug按纽旁会多出...

2018-10-18 16:23:35 641

原创 eclipse配置hadoop运行环境

将如下文件解压并复制放置在对应eclipse的文件夹下的bin目录。覆盖进去配置环境变量%HADOOP_HOME%\bin将插件文件拷贝到c盘Windows的system32目录下

2018-10-18 16:18:32 2107

原创 hadoop NN元数据管理机制

hdfs文件写入流程NN采用读写分离机制元数据合并机制

2018-10-18 16:15:57 340

转载 spark分区数,task数目,core数,worker节点个数,excutor数量梳理

输入可能以多个文件的形式存储在HDFS上，每个File都包含了很多块，称为Block。当Spark读取这些文件作为输入时，会根据具体数据格式对应的InputFormat进行解析，一般是将若干个Block合并成一个输入分片，称为InputSplit，注意InputSplit不能跨越文件。随后将为这些输入分片生成具体的Task。InputSplit与Task是一一对应的关系。随后这些具体的Ta...

2018-10-18 16:12:15 2368

原创 spark单机环境安装

Ubuntu16.04以上Hadoop 2.7.1以上Java JDK 1.7以上Spark 2.1.01、安装好jdk2、解压spark文件tar -xvf spark-2.0.1-bin-hadoop2.7.tgz3、进入安装文件cd conf修改配置文件复制conf spark-env.sh.template 文件为 spark-env.sh在其中修改，增加如下内容...

2018-10-18 16:07:58 1072

原创 JetBrains PyCharm 2016.3启动报错(JDK)

1、安装jdk82、配置环境变量 IDEA_JDK_64指向 jdk8目录，这样能正常启动idea64其实就是欺骗idea，真实jdk环境变量还是指向JAVA_HOME

2018-10-18 16:04:00 1491

原创 hbase安装(0.98.x)-LMS日志结构型数据库

前言：数据库，按照数据库的存储结构来区分的话，key-value数据结构：其中比较出名的有redis这种；二叉树类型的数据结构：比较出名的是mysql和oracle；LMS日志结构性数据库：就是hbase。以下，大致讲解下hbase怎么去配置单机，伪分布式，完全分布式。首先是hbase版本对应的信息如下：前提条件，安装jdk 和 hadoop，并配置了环境变量1.单机模式直接解...

2018-10-18 11:22:18 611

原创整合CAS出现的jar包不兼容问题

之前的登录是sso做的，现在想用CAS做一下单点登录。整合时候，出现了一些问题：引入了cas的client后。发现&lt;!-- 引入cas客户端 --&gt;&lt;dependency&gt; &lt;groupId&gt;org.jasig.cas.client&lt;/groupId&gt; &lt;artifactId&a

2018-10-18 10:40:24 5667

原创针对springboot无法读取properties文件的字段信息，无法实现注入的问题

@Servicepublic class PropertieService { @Value("${pathw}") public String pathw; @Value("${urlw}") public String urlw; }此处如果直接在application.properties下，添加Pathw=C://jt-uploadurlw=htt...

2018-10-18 10:31:02 4146

转载 MySQL中EXPLAIN解释命令查看索引是否生效

&amp;lt;link rel=&quot;stylesheet&quot; href=&quot;https://csdnimg.cn/release/phoenix/template/css/ck_htmledit_views-e4c7a3727d.css&quot;&amp;gt; &amp;lt;div class=&qu

2018-10-18 10:28:00 342

原创 springboot出现jsp无法被解析的问题

添加如下依赖：<dependency> <groupId>javax.servlet</groupId> <artifactId>javax.servlet-api</artifactId> <version>3.1.0</version&gt

2018-10-17 18:34:06 2935

原创 maven的所有jar包源码，变成淘宝网源码的问题，神坑

问题如图：此为ssm项目时候遇到的问题。所有的jar源码居然变成淘宝网的代码。简直是匪夷所思。且听我细细道来。问题原因探讨：由于顶级是使用aliyun做的，阿里云，在jar包下载出错的问题下，或者无法下载jar的时候，阿里云会出现把jar里面的源码变成淘宝网的网页源码。解决：Maven整个删除，重新配置，问题解决。...

2018-10-17 18:23:43 325

原创在manage的项目，使用boot整合cloud的eureka-server注册中心的时候，遇到的坑

项目一直出现加载项目就报错的问题。后面把jar包的顺序调节了先后顺序，加载就避开了异常。如图：将eureka的jar包放在spring-boot-starter-web的前面，问题就解决了。不知道原因。网上也找不到。<dependency> <groupId>org.springframework.cloud</groupId> <artifa...

2018-10-17 18:17:45 209

原创 IDEA在springboot项目下，出现无法找到对应的页面文件问题

springboot项目在idea容易出现找不到页面文件和tomcat报错的问题。故对这两个问题记录一下。在POM文件下，加入如下设置：<resources> <resource> <directory>src/main/...

2018-10-17 18:14:18 1550

原创采用maven的聚合，项目拆分、整合boot cloud时，错误的整合思路，如何解决

idea下，如何进行springboot的maven聚合依赖。首先，把我的项目结构图大致说明一下：项目文件结构大致图：对应的pom信息如下，从父级逐级显示，以下只是备注自己的关键代码jt-parent<modules> <module>../jt_common</module></modules><dependency&...

2018-10-17 18:09:14 258

原创整合boot和cloud时候针对<parentId>和<dependencyManagement>区别的疑惑

首先看，在maven下，对微服务进行聚合时候，看到parentId和dependencyManagement。很相似。所以这里，我想对这两个标签进行说明一下，把自己的经验告诉大家。如图：以下为parentId的方式：<parent> <groupId>org.springframework.boot</groupId> <artifactId...

2018-10-17 17:20:19 652

原创将json串转换为对象时候，出现字段和属性不匹配问题

报错信息如下：org.codehaus.jackson.map.exc.UnrecognizedPropertyException: Unrecognized field "HPYS" (Class com.traffic.entity.BusBaseInfo), not marked as ignorable解决方案：一：我采用的方案1、请求的JSON里面字段多余映射的实体类，可以通过...

2018-10-17 17:13:58 16034

原创微服务---加入redis配置时候，boot+cloud一跑起来就报错

项目依托redis部分的jar包只有这个部分，经过对jar的依赖，报错信息的提示，发现缺少了对应的spring-data-redis的jar包。<dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-redis</...

2018-10-17 17:10:28 698

原创 springboot聚合项目整合redis时候，项目出现class找不到的问题

微服务之前也一直听说过，但是一直没有机会用。刚好，想把公司最近基于ssm的分布式项目，重构成微服务的。网上看了一些教程。话不多说就准备弄了。整合后，发现项目一直报找不到redis对应的class文件的问题。解决过程：1.1试过在manage的后台，检查了common的jar是否存在对应的class文件，有，解决未果1.2 将common里面的redis配置类，复制到对应的manage的包...

2018-10-17 16:57:35 2122

HadoopIntellijPlugin-1.0-hadoop-2.7.1.zip

demo-0.0.1-SNAPSHOT.jar

空空如也