- 博客(32)
- 收藏
- 关注
原创 数仓概念
转载自http://www.woshipm.com/pmd/1100088.html机器学习相关看该博客博主数据仓库是存数据的,企业的各种数据往里面塞,主要目的是为了有效分析数据,后续会基于它产出供分析挖掘的数据,或者数据应用需要的数据,如企业的分析性报告和各类报表,为企业的决策提供支持。数据仓库可以算是数据产品必须要了解的技术知识了, 在一年前的数据产品求职分析中,其中技能要求这一项中,数据仓库可是占了一席之地的。一、数据仓库是什么可以理解为:面向分析的存储系统。也就是说数仓是存数据的,企业的
2020-11-12 16:42:17 516
原创 关系型数据库与非关系型数据库以及Hive,Hive on Spark和SparkSQL区别
一、关系型数据库1、含义:关系型数据库,是指采用了关系模型来组织数据的数据库,其以行和列的形式存储数据,以便于用户理解,关系型数据库这一系列的行和列被称为表,一组表组成了数据库。用户通过查询来检索数据库中的数据,而查询是一个用于限定数据库中某些区域的执行代码。关系模型可以简单理解为二维表格模型,而一个关系型数据库就是由二维表及其之间的关系组成的一个数据组织。2、常见的关系型数据库关系型数据库常见的有 Oracle,SQLServer,DB2,Mysql,Microsoft Access等多个品种,每
2020-08-10 00:11:32 1096
原创 greenplum安装
本文章转载自:https://blog.csdn.net/zutsoft/article/details/103646014Greenplum是一套基于postgresql数据库的典型MPP(大规模并行处理系统)集群数据库,整个GP环境中包含几个部分:Master:建立与客户端的连接和管理,生产SQL查询计划,执行计划向segment的分发收集执行结果。Master本身不负责数据存储,只存储数据字典。Segment:业务数据的存取,用户SQL的执行。Master高可用,使用节点stand
2020-06-11 23:42:07 611
原创 kafka相关
kafka相关请说明什么是Apache Kafka?请说明什么是传统的消息传递方法?请说明什么是Apache Kafka?Apache Kafka是由Apache开发的一种发布订阅消息系统,它是一个分布式的、分区的和重复的日志服务。请说明什么是传统的消息传递方法?传统的消息传递方法包括两种:排队:在队列中,一组用户可以从服务器中读取消息,每条消息都发送给其中一个人。发布-订阅:在这个模型中,消息被广播给所有的用户。...
2020-05-14 23:26:56 161
原创 zookeeper相关
zookeeper相关谈谈你对ZooKeeper的理解?ZooKeeper节点类型?创建的临时节点什么时候会被删除,是连接一断就删除吗?延时是多少?客户端如何正确处理CONNECTIONLOSS(连接断开) 和 SESSIONEXPIRED(Session 过期)两类连接异常?能否为临时节点创建子节点?ZooKeeper集群中服务器之间是怎样通信的?请说明ZooKeeper的通知机制?请简述ZooKeeper的选举机制ZooKeeper使用的ZAB协议与Paxo算法的异同?客户端对ZooKeeper的Ser
2020-05-14 17:59:09 253
原创 hbase相关
hbase相关HBase内部机制是什么?以start-hbase.sh为起点,HBase启动的流程是什么?HBase读写流程?简述HBase中compact用途是什么,什么时候触发,分为哪两种,有什么区别,有哪些相关Hbase中的memstore是用来做什么的?HRegionServer宕机如何处理?HBase的特点是什么?请详细描述HBase中一个cell的结构?HBase在进行模型设计时重点在什么地方?一张表中定义多少个Column Family最合适?为什么?HBase和Hive的区别?HBase适用
2020-05-12 11:23:25 421
原创 Hive相关
Hive相关请谈一下Hive的特点,Hive和RDBMS有什么异同?Hive的HSQL转换为MapReduce的过程?请谈一下Hive的特点,Hive和RDBMS有什么异同?ive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析,但是Hive不支持实时
2020-05-12 01:24:06 470
原创 Spark相关啊
Spark相关spark工作机制?Spark为什么比mapreduce快?你所理解的Spark的shuffle过程?spark工作机制?答:用户在client端提交作业后,会由Driver运行main方法并创建spark context上下文。执行rdd算子,形成dag图输入dagscheduler,按照rdd之间的依赖关系划分stage输入task scheduler。 task scheduler会将stage划分为task set分发到各个节点的executor中执行。Spark应用程序的执行
2020-05-12 01:02:47 302
原创 Spark相关
1.Spark Shuffle实现原理及代码解析Shuffle,简而言之,就是对数据进行重新分区,其中会涉及大量的网络io和磁盘io,为什么需要shuffle,以词频统计reduceByKey过程为例,shuffle过程如下图:spark的shuffle操作有之前的版本和现在优化后的版本,它可以通过一个参数来调节,具体我们后面会详述,本篇主要从以下几个方面来深入Shuffle原理:普...
2020-05-01 20:07:25 463
原创 java基础
1.1java基础知识1.1.1重载和重写的区别重载:发生在同一个类中,方法名必须相同,参数类型不同、个数不同、顺序不同、方法返回值和访问修饰符可以不同,发生在编译时。**重写:**发生在父子类中,方法名、参数列表必须相同,返回值范围小于等于父类,抛出的异常小于等于父类,访问修饰符大于等于父类;如果父类方法访问修饰符为private则子类就不能重写该方法。1.1.2String和Strin...
2020-04-24 17:53:07 444
原创 java集合相关
1.2java集合框架1.2.1Arraylist与LinkedList异同1.是否保证线程安全:ArrayList和LinkedList都是不同步的,也就是不保证线程安全的;2.底层数据结构:Arraylist底层使用的是Object数组;LinkedList底层使用的是双向链表数据结构(JDK1.6之前为循环链表,JDK1.7取消了循环。注意双向链表和双向循环链表的区别,详细可读http...
2020-04-24 17:51:25 216
原创 多线程相关
1.3Java多线程关于 Java多线程,在面试的时候,问的比较多的就是①悲观锁和乐观锁、②synchronized和lock区别以及volatile和synchronized的区别,③可重入锁与非可重入锁的区 别、④多线程是解决什么问题的、⑤线程池解决什么问题、⑥线程池的原理、⑦线程池使用时的注意事项、⑧AQS原 理、⑨ReentranLock源码,设计原理,整体过程 等等问题。面试官在多线...
2020-04-24 17:48:24 306
原创 JVM相关
1.4java虚拟机关于Java虚拟机,在面试的时候一般会问的大多就是①Java内存区域、②虚拟机垃圾算法、③虚拟机垃圾收集器、④JVM内存管理、⑤JVM调优、⑥Java类加载机制这些问题了其实执行一个类就是将它的字节码丢到JVM中去运行jvm由类加载子系统、运行时数据区和字节码执行引擎三部分组成。比如说执行一个类,其实就是将它的字节码丢到JVM里去运行。首先会由类加载子系统将字节码文件装...
2020-04-24 17:40:25 330
原创 namenode维护元数据
一、NameNode启动时如何维护元数据:1、概念介绍:Edits文件:编辑日志的作用编辑日志是记录对文件或者目录的修改信息,比如删除目录,修改文件等信息。编辑日志一般命名规则是“edits_*”,它在NameNode启动后,记录对文件系统的改动序列。edits文件存放的是hadoop文件系统的所有更新操作的路径,文件系统客户端执行的所有写操作首先会被记录到edits文件中。FsIma...
2020-03-03 00:14:55 2886
原创 SparkCore
一、RDD概述在介绍RDD之前先介绍一下java中的IO:缓冲流(缓冲流提高效率):装饰者设计模式表示一种功能的扩展,在这里真正读文件的是in而不是buggerIn,javaIO强大的原因就是他可以动态的扩展他的功能字符流:使用BufferedReader可以一行一行的读取数据,但要注意并不是所有的字符流都可以一行一行的读数据。前面的步骤只是转换包装并没有真正的读取,只有用的时候即...
2020-02-28 00:02:47 207
原创 Spark基础解析
一. 介绍spark之前我们先说一下hadoop:Hadoop历史:2003、2004Google发表2篇论文2011年发布1.0版本2012年发布稳定版2013年10月发布2.x 版本(1.2和2.0版本的根本区别是yarn)左边用来存储数据右边用来计算数据mr的缺点:1.mr是基于数据集的计算,所以是面向数据的,基本运算规 则从存储介质中获取(采集)数据,然后进行计算,...
2020-02-25 23:51:48 343
原创 DataFrame和SparkSql使用区别
启动交互shell[root@hdp-1 bin]# ./spark-shell --master spark://hdp-2:7077 --executor-memory 500m --total-executor-cores 1–master spark://hdp-2:7077 sparkmaster节点的地址–executor-memory 500m–total-executor...
2019-12-04 18:54:06 1615
原创 spark
1.spark集群配置:修改配置文件conf/spark-env.shexport JAVA_HOME=/root/apps/jdk1.8.0_201export SPARK_MASTER_HOST=hdp-0export SPARK_MASTER_PORT=7077export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZO...
2019-12-04 11:25:58 175
原创 nginx+flume+sqoop
vi /usr/local/nginx/conf/nginx.conf#user nobody;worker_processes 1;#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log info;#pid logs/nginx.pid;...
2019-12-03 15:46:46 229
原创 hadoop、storm和spark的区别、比较
一、hadoop、Storm该选哪一个?为了区别hadoop和Storm,该部分将回答如下问题:1.hadoop、Storm各是什么运算2.Storm为什么被称之为流式计算系统3.hadoop适合什么场景,什么情况下使用hadoop4.什么是吞吐量首先整体认识:Hadoop是磁盘级计算,进行计算时,数据在磁盘上,需要读写磁盘;Storm是内存级计算,数据直接通过网络导入内存。读写内存比...
2019-12-03 15:02:26 141
原创 storm中worker、executor、task之间的关系
首先从微观上来看:worker即进程,一个worker就是一个进程,进程里面包含一个或多个线程,一个线程就是一个executor,一个线程会处理一个或多个任务,一个任务就是一个task,一个task就是一个节点类的实例对象。一个worker处理topology的一个子集,同一个子集可被多个worker同时处理,一个worker有且仅为一个topology服务,不会存在一个worker即处理to...
2019-12-03 15:00:39 420
原创 序列化
序列化就是一种用来处理对象流的机制,所谓对象流也就是将对象的内容进行流化,将数据分解成字节流,以便存储在文件中或在网络上传输。可以对流化后的对象进行读写操作,也可将流化后的对象传输于网络之间。序列化是为了解决在对对象流进行读写操作时所引发的问题。 序列化的实现:将需要被序列化的类实现Serializable接口,该接口没有需要实现的方法,implements Serializable只是为了标注该...
2019-12-03 14:11:11 163
原创 elk跟踪日志并采集
一. ELKStack简介ELK Stack 是 Elasticsearch、Logstash、Kibana 三个开源软件的组合。在实时数据检索和分析场合,三者通常是配合共用,而且又都先后归于 Elastic.co 公司名下,故有此简称。大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力...
2019-12-02 21:37:34 293
原创 在商城系统中使用ftp服务器实现上传图片功能
传统项目中的图片管理传统项目中,可以在web项目中添加一个文件夹,来存放上传的图片。例如在工程的根目录WebRoot下创建一个images文件夹。把图片存放在此文件夹中就可以直接使用在工程中引用。**优点:**引用方便,便于管理缺点:1、如果是分布式环境图片引用会出现问题2、图片的下载会给服务器增加额外的压力传统图片管理方式在分布式环境中的问题:分布式的情况下,把工程复制多份到多个t...
2019-11-30 19:25:05 366
原创 storm安装和用途
Storm 环境安装storm是由zookeeper进行管理的,也依赖于JDK的环境1,文件准备将下载下来的storm的配置文件进行解压在linux上输入:tar -xvf apache-storm-1.1.1.tar.gz然后移动到/opt/storm里面,没有就新建,然后将文件夹重命名为storm1.1输入mv apache-storm-1.1.1 /opt/stor...
2019-11-28 19:52:47 163
原创 zookeeper安装和用途
安装1上传安装包,解压 tar -zxvf name -C apps/2改名字:cp zoo_sample.cfg zoo.cfg3修改conf/zoo.cfg# The number of milliseconds of each ticktickTime=2000# The number of ticks that the initial# synchronization pha...
2019-11-28 15:53:28 140
原创 map与flatMap的区别
flatMapval lineArray = Array("hello you","hello me","hello world")val lines = sc.parallelize(lineArray, 1)val words = lines.flatMap(line =>{ line.split(" ") })words.foreach { word => p...
2019-11-27 09:47:25 173
原创 使用cookie记录上次访问时间出现异常java.lang.IllegalArgumentException: An invalid character [32] was present in the
今天在练习使用 cookie记录上次访问时间时意外的报了这个错。java.lang.IllegalArgumentException: An invalid character [32] was present in the Cookie value这句话的意思是一个不识别的字符[32]出现在了cookie当中由于tomcat的版本比较高,所以在addCookie时是不能使用空格的 而在A...
2019-08-19 08:17:23 202
原创 mysql报错显示1045 access denied for user 'root'@'localhost' using password yes
在运行cmd输入mysql -uroot -p显示1045 access denied for user ‘root’@‘localhost’ using password yes解决办法:1.打开mysql目录下的my.ini文件,找到[mysqlId]),在下面加一句skip_grant_tables //跳过权限认证注:如果my.ini找不到的话可以在根目录的ProgrameData...
2019-08-17 22:30:16 494
原创 在eclipse中按住ctrl点击系统类显示找不到资源的解决方法
系统环境变量配置好jdk后,使用eclipse时,eclipse默认是不会连接source.jar包的,所以在系统类的类名上按住Ctrl点击时会出现Source notfound这是rt.jar没有资源连接着它的原因,解决方法:1.点击Attach Source2.workspace和其他的目录中(只要存在都可以)找到资源包(src.zip)就好,这里选择External location...
2019-06-06 19:49:49 1096
原创 在hive中beeline终端输入hql语句写错时无法删除解决办法
通过SecureCRT工具连上linux后,通过beeline连接上hive后,在输错hive语句时,无论 Backspace还是delete 都删除不掉错误的语句,没有办法退格。解决方案:第一步:SecureCRT菜单选项栏中"options"---->“Session Options…”,点击打开:第二步:在“Session Options…”中,修改找到“Terminal”---...
2019-06-03 20:21:53 1432 1
原创 String类compareTo方法源码解析
String类compareTo方法源码解析:源码:public int compareTo(String anotherString) { int len1 = value.length; int len2 = anotherString.value.length; int lim = Math.min(len1, len2);//获取2个字符...
2019-05-09 19:46:58 315
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人