熊怪叔叔-CSDN博客

原创 spark的client和cluster的模式介绍(五)

Application Master在Yarn中，每个Application实例都有一个Application,实例都有一个 Application Master进程，它是Application启动的第一个容器。它负责和ResourceManger打交道，并请求资源，获取资源之后告诉NodeManager,为其启动container.ResourceManger:负责将集群的资源分配给各个应用...

2020-03-30 20:58:22 561

原创 hive的表及分区操作方式(一)

hive的建表方式：hive的插入数据的方式：Hive的分区操作:分区修改：Alter table_name partition (date='201801') rename to partition(date='201802')删除分区：alter table login Drop if exists partition(date='201801')添加分区：alter table...

2020-03-26 19:34:05 482

原创 sparkSQL的RDD转换成DataFrame

1、为什么要将RDD转换成DataFrame,直接针对HDFS等任何可以构建为RDD数据，进行SparkSQL的sql查询2、SparkSQL支持RDD转换成DataFrame的方式如下：1>反射方式；2>通过编程接口创建DataFrame;方法一：使用createDataFrame方法；val schema=StructType( seq( St...

2020-03-26 18:44:14 593

原创 java的Stack讲解及实现有效括号

java把内存划分成两种：栈内存/堆内存。函数中定义的基本类型的变量及对象的引用变量都是在栈内存中分配，当代码块定义一个变量，java在栈中为这个变量分配内存，当超过变量的作用域后，java会自动注释掉为该变量分配的内存空间。堆内存：由new 创建对象和数组，在堆中分配内存，由java虚拟机的自动垃圾回收器管理。在堆中产生一个数组或者对象，在栈中定义一个特殊的变量，让栈中的这个变量的取值等...

2020-03-25 11:18:57 251

原创 java拆分8字符串

首先输入数字n，表示要输入多少个字符串。连续输入字符串(输出次数为N,字符串长度小于100)。输出描述:按长度为8拆分每个字符串后输出到新的字符串数组，长度不是8整数倍的字符串请在后面补数字0，空字符串不处理。...

2020-03-22 14:29:53 1116

原创 java求解负数个数和正数的和

2020-03-22 12:17:25 651

原创 java求解字符串反转

2020-03-22 10:51:08 134

原创 java求解平方跟

求解平方根import java.util.*;import java.io.*;public class Main{ public static void main(String[] args)throws IOException{ if(false){ return ; }else{ BufferedRea...

2020-03-21 18:33:14 252

原创 java求解2个数的最小公倍数

求两个数的最小公倍数算法核心：最小公倍数=两整数的乘机/最大公约数；package demo;import java.util.*;public class demo01 { public static void main(String[] args){ Scanner sc=new Scanner(System.in); i...

2020-03-21 17:04:22 3695

原创 spark的任务提交后台提交实例（五）

//本地模式,如果时集群模式需要启动master和worknode./bin/spark-submit--class com.package.test.app.demo01//直接是对象名称--deploy-mode cluster //驱动进程四在集群上工作界定云心那个cluster,还是在集群之外客户端运行clientanalyzer-logs-1.0.jar //日志分析...

2020-03-21 12:08:18 769

原创 sparkSQL的sqlContext和hHiveContext的汇总（二）

sqlContext总的一个过程如下：1.SQL语句经过SqlParse解析成UnresolvedLogicalPlan；2.使用analyzer结合数据数据字典（catalog）进行绑定，生成resolvedLogicalPlan；3.使用optimizer对resolvedLogicalPlan进行优化，生成optimizedLogicalPlan；4.使用SparkPlan将Logi...

2020-03-21 11:58:40 375

原创 saprkSQL的思考及开发实战(一)

sparkSQL:数据读入到sparkSQL,进行数处理或者算法实现，然后再把处理收的数据输出到相应的输出源中,在实际开发过程中需要考虑如下几个点：1、数据源多少，sparkSql支持多种数据源hive\json\.txt\orc文件\jdbc;2、字段的映射关系与语言的定义类型相关3、数据拥有的情况下，组织这些数据->数据结构->操作数据sparkSQL的实战介绍...

2020-03-21 11:52:34 333

原创 Scala各类符号介绍(一)

scala的各种符号含义1、:::运算符号，表示的是List的连接操作，比如:val a=List(1,2);val b=List(3,4) val c=a:::b;代替了java中的add方法；2、::表示普通元素和List的连接操作：val d=5val f=List(6,7)val g=d::f则结果是List(5,6,7),1::b操作，::是右侧对象[b]...

2020-03-20 10:06:02 1232

原创 CDH搭建的节点环境准备(一)

Hadoop的平台搭建搭建大数据的分布式平台的环境准备虚拟机环境（vm）、centos7.0（/centos6.5）; centos7.0（/centos6.5）的安装步骤 A.点击添加虚拟机，选择典型安装，如下图所示：B.提前准备好安装程序光盘的映像文件，选择映像点击下一步虚拟机命名(随意)，...

2020-03-19 22:57:20 633

原创 spark的配置方式及端口介绍(四)

saprk配置信息使用的三种方式：1、代码中使用SparkConf来配置；2、在提交时候使用--conf来配置 spark-submit --master --conf k=v 如果要设置多个配置信息的值，需要使用多个–conf；3、在spark的配置文件spark-default.conf文件中配置；spark端口及修改配置文件：start-master.sh/spark-defa...

2020-03-19 22:37:14 864

原创 spark的任务调度流程（三）

spark任务调度1、提交spark应用，每一个saprk的应用叫做application;2、./bin/spark-submit 提交代码，启动driver;3、启动driver也就意味着开始要执行代码，执行代码的时候初始化sparkContext,即构建DAGScheduler和TaskScheduler；4、TaskScheduler向master注册，master接到请求之后，向...

2020-03-19 22:07:44 415

原创 spark的安装集运行模式(二)

Spark安装：配置path的环境的java和python（不在叙述，不会上网查找）；官网下载spark的包； Wegt 命令下载；tar -xvf sparkxxx.jar4、mkdir -p /opt/mySpark mv sparkxxx /opt/mySpark5、修改权限 chown -R root:root /opt/mySpark; chmod -R 755 /o...

2020-03-17 10:15:44 195

原创 spark与hadoop生态圈（一）

Spark是一个开源计算框架，开发者借助于其API编写分布式应用来使用集群资源，无须关心底层的分布；它支持各种工作负载，包括批处理、流式计算、商业智能分析、图形计算、以及机器学习。为什么使用spark可编程性：MapReduce需要几个链式的步骤来完成某些工作负载步骤，还需要这对不同应用的专用系统； Mr在计算步骤之间将中间数据写入磁盘，使得一些执行交互式分析和迭代算法的应用程序在重用数...

2020-03-17 09:36:08 783

原创 kylin的存储目录，及对应生成的cubeid的分析

kylin的存储在hdfs的文件路径：/kylin/查看命令：hadoop fs -du -h /kylin/ hadoop fs -du -h /kylin/kylin_testing/目录如下： /kylin/ proj 1--对公的cube的存储目录 /kylin/ proj2 --零售的cube的存储目录...

2020-03-15 18:26:58 785

原创 kylin的总体概述及总结汇总

Kylin Cube构建原理解析Apache Kylin 是什么Apache Kylin是一个开源的、基于Hadoop生态系统的OLAP引擎(OLAP查询引擎、OLAP多维分析引擎)，能够通过SQL接口对十亿、甚至百亿行的超大数据集实现秒级的多维分析查询。ApacheKylin 核心:Kylin OLAP引擎基础框架，包括元数据引擎，查询引擎，Job(Build)引擎及存储引擎等，同...

2020-03-15 18:19:00 1040

原创 BI可视化产品概述（一）

目前市面比较流行的可视化工具：tableau,FineBI,powerBI,Smart BI，IBM Cognos,永洪BI,等，其中对于三个产品tableau,FineBI,IBM Cognos，调研和使用过，对着三个产品做个简单的介绍：11、tableau已经比较完善了，性能在报表服务器中是优秀的，功能也比较强大，但是产品的价格也是不菲的，众所周知；2、cognos产品目前占有的市...

2020-03-15 18:10:09 537

原创 FineReport的介绍（三）

FineReportFineReport 是帆软自主研发的企业级 web 报表工具，经过多年的打磨，已经成长为中国报表软件领导品牌。FineReport 以其零编码的理念，易学易用，功能强大，简单拖拽操作便可制作中国式复杂报表，轻松实现报表的多样展示、交互分析、数据录入、权限管理、定时调度、打印输出、门户管理和移动应用等需求。FineReport 的特点可以总结为“专业、简捷、灵...

2020-03-15 16:36:22 962

原创 BI产品的使用和问题解决（二）

现阶段各行各业在使用数据进行查询分析基本都是通过前端业务人员与信息部IT人员沟通，向他们解释具体的业务流程，然后IT人员再根据业务流程来获取数据建立模板这样一个流程来完成的。随着信息化的长期发展，这样一个使用流程的弊端越来越明显，具体表现在以下几个方面：1、数据结构混乱。数据库经过多年建设，数据非常庞大复杂，IT人员几乎不太可能弄清楚所有数据表的结构；2、沟通成本大。前端业务人员需要与...

2020-03-15 16:28:29 619

原创 bitMap算法的分析

bitMap算法是一个bit位来标记某一个元素对应的value值，key是对应的元素，由于BitMap使用bit位来存储数据，大大节省存储空间。给定一个10位的bitMap,里面的数字代表下标序号：｛4，5，6，，7｝可以直观的看到 10 9 8 7 6 5 ...

2019-09-12 16:38:33 220

原创 hive定位问题的方法论

环境及场景：数据仓库hive,执行引擎MapReduce,运行环境CDH,存储在hdfs上的表的格式是orc格式节省存储空间。根据实际经验，做如下介绍：查看j代码调用脚本时候出现的直接报错问题，定位是否是环境的问题或者代码的问题；如果是hive的报错eg：retuorn code 1 oom等；查看cdh集群对应的任务（application_123123）,查看log，conta...

2019-09-05 18:22:25 556

原创 kylin使用时候出现的问题及处理方式(二)

文章主要针对kylingence或者kylin及hadoop的各个组件使用的问题汇总：问题7 Hive 重启后，Kyligence Enterprise 报错 "/tmp/hive-scratch on HDFS should be writable"问题8问题描述：在 FushionInsight C70 中重新启动 Hive 后，Kyligence Enterprise 报告 "...

2019-09-05 17:49:43 2230

原创 kylin使用时候出现的问题及处理方式(一)

文章主要针对在使用kyligence或者kylin时候出现的一些问题总结：问题1使用 Spark 构建报错 "OutOfMemoryError of PermGen Space"问题描述：使用 Spark 构建报错 java.lang.OutOfMemoryError: PermGen space.根本原因： PermSize 的资源不足（默认值为 256M）解决方案：在 ...

2019-09-05 17:47:33 3282

原创项目系统管理师及PMP项目管理师常用的英语专业词汇（二）

客户机/服务器：Client/Server [C/S]浏览器/服务器：Browser/Server[B/S]面向服务的体系架构：Service Oriented Architecture[SOA]中间件：Middleware远程过程调用：Remote Procedure Call[RPC]Web服务：Web Service简单对象访问协议：Simple Object Acc...

2019-09-04 22:46:18 420

原创 ETL-设计开发过程的总述

ETL的主要作用：数据的获取、清洗的一致性、用于展现的发布、ETL环境的管理，在所有的设计ETL模型的时候，所有模型的逻辑设计应该已经初步完成，并了解了自己所使用的用于建立数据仓库的数据源有哪些，以及需要建设的模型ETL和源之间的映射关系的80%是可以确认的，那么在上面的基本条件准备充分的情况下，可以开始ETL的建设，需要考虑一下ETL工具的选择，对于一个大型的项目有一个ETL去管理，对后期新...

2019-09-04 22:15:16 2257

原创 Sqoop数据迁移

Sqoop:SQL to Hadoop 作用：批量的将关系型数据库的数据迁入和迁出的工具，将需要将关系型数据库(oracle、mysql)的数据迁入到hdfs上，通过pig或者hive查询sqoop架构Sqoop使用的是hadoop的一套架构mapreduce来完成所有的工作，在使用sqoop迁移数据的时候，性能取决于mapreduce的执行情况.下图是sqoop基本架构使用s...

2019-09-04 00:08:20 201

原创 linux的常用系统检查、切换命令(二)

* --help,万能命令第一部分检查命令1、ifconfig:用于获取网卡及网络状态的信息eg：ifconfig[网络设备][参数]2、uname用于查看系统内核与系统版本信息eg:格式为:uname [-a]3、free:查看当前内存的使用情况4、last查看本机的登录历史5、history：显示历史记录信息6、sosreport命令：用于收集系统配置及架构信息并输...

2019-09-01 15:28:27 242

原创 linux的常用系统工作命令(一)

* --help,linux万能命令；1、常用系统命令：echo:用于子啊终端输出字符串或变量提前后的值：echo 字符串或者变量2、date命令：%t/H/I/M/S/j：对应的意思tab、小时【0-23】、小时【0-12】、分钟、秒、今年中的第几天;3、wget命令:wget:下载命令，主要用于在线安装一些jar包，具体的合作命令有-b 后台下载-p 下载到指...

2019-09-01 15:03:25 266

原创项目系统管理师及PMP项目管理师常用的英语专业词汇（一）

信息系统：Information System[IS];企业资源计划：Enterprise Resourse Planning[ERP]管理信息系统:Management Information System[MIS]结构化分析方法:Structured Analsis[SA]面向对象分析方法：Object-Oriented Analsis[OOA]面向对象编程;Object ...

2019-09-01 12:12:37 748

原创 kylin的查询性能优化(一)

平台是基于kylin及hadoop生态，搭建的大数据平台，其中多维数据分析是通过kylin实现的，为了满足大数据量的业务的实时查询并且响应时间秒出的需求，所以采用这套数据架构，实际的查询结果并没有达到预期的秒出结果集，下文及后续文章陆续介绍整个优化的全过程，直至达到业务的要求。 kylin的强大之处就在于预计算，将时间转换为空间的理论，预计算结果是查询性能的一...

2019-09-01 11:41:24 1231

原创 kylin预处理结果分析

kylin提供了一个简单的工具让用户查看构建出来的cubeID及分布情况，下面是查看的两个命令。命令:./kylin.sh org.apache.kylin.cube.CubeStatsReader cubeName -*cube分析*-[kyligence企业版本的分析]bin/kylin.sh org.apache.kylin.engine.mr.common.CubeStat...

2019-09-01 10:01:17 670

原创 kylin的查询性能分析和对应的调整策略

Kylin产品的核心：预处理，即将所有需要或者可能出现的查询结果提前存储好,生成一个cubeId，待发过来的查询sql与预处理存储的结果集匹配,直接命中一个cubeId，可以很快的查询结果，如果没有匹配到对应的CubeId，那么kylin会根据发过来的sql，命中一个与查询sql匹配度最好的一个cubeId进行二次计算：基于项目，由于前期对于cube的设计存在不合理性，预计算的处理结果和查询的...

2019-08-21 13:16:44 420

原创 Kylin的cubeID各种组合的计算公式

维度数量N,层级维度C，联合维度J，必须维度M；[都只有一个组],特别提醒：需要完全理解层级维度、联合维度、必须维度的含义，才对下面的公式不会产生歧义。Cube的设置组合如下：包含维度，无层级、必须、联合维度，生成的cubeId:2^n; 包含维度，与必须维度，则生成的cubeId：2^(N-M) 包含维度、必须维度、层级维度，则生成的CubeId:2^(N-M-C)*C+1 包含维......

2019-08-19 09:27:07 1456

原创 kylin的维度组合

kylin的维度组合默认的是2^n；但是在实际场景中简单的使用这种计算方式去计算生成的维度组合，对于维度数来那个超过40个的，那么生成的cubeId的数量是4096；如果维度的数量超过这个值，那么在构建和存储集查询方面都可能存在问题，此文章从以下四个层次来管理dinmensions:【以下所有的设置都是基于各司的业务设置，非通用模版】设：共有维度10个维度：分别为A,B,C,D,E,F...

2019-08-17 17:47:13 1564

原创利用pdfjs实现pdf的在线预览

1、pdfjs包的位置2、后台java@RequestMapping(params = "goViewPDF") public ModelAndView goViewPDF(HttpServletRequest request,HttpServletResponse response){ String filePath = request.getParameter("filePath"...

2018-02-08 09:47:31 5460

原创借助finalReport实现excel转换成cpt格式进行文档实现在线

public class ExcelToCpt {/** * excel转换成Cpt实现在线预览 * @param file excel文件 * @param cpt Cpt文件 */public static void ExcelToCpt(String file, String cpt) {File excelFile = new File(file); //

2016-07-18 15:19:59 1301

空空如也

空空如也