- 博客(275)
- 资源 (23)
- 收藏
- 关注
原创 大数据篇--数仓概念总结
文章目录一、数据仓库1.什么是数据仓库:2.技术发展历程:3.数据仓库特点:4.OLAP和OLTP的区别:参考:数仓基础概念一、数据仓库1.什么是数据仓库: 数据仓库,英文名称为Data Warehouse,关于数据仓库概念的标准定义业内认可度比较高的,是由数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriente
2021-06-24 22:52:53 4708
原创 厨神之路九--群英荟萃2
文章目录一、灯笼虾一、灯笼虾煮虾:等锅中水开倒入虾,再放入生姜片和料酒去腥用,煮个三五分钟捞出即可。土豆泥制作:土豆(大约150克)削皮切片煮熟或者蒸熟(用小刀可以轻易戳穿土豆块即可)。再加入2茶匙黄油,倒入20ml牛奶,适量盐和黑胡椒,我这里还用到了豌豆和玉米粒(后来感觉完全没必要用),碾碎即可。这个做土豆泥最大的左右就是用来黏合虾的排盘,考虑到家常性也可以用米饭来代替。排盘:将土豆泥揉成两个球放在盘中,将虾头去掉,虾皮剥掉,依次在土豆泥球上摆一圈。红青椒圈切完之后可能不好看可以再用小刀修饰
2021-06-15 22:05:31 262
原创 大数据篇--Spark常见面试题总结二
文章目录一、Spark作业资源的设置情况二、DataFrame/Dataset/RDD的区别及编程三、Spark中的隐式转换的作用:结合Scala来学习一、Spark作业资源的设置情况二、DataFrame/Dataset/RDD的区别及编程三、Spark中的隐式转换的作用:结合Scala来学习...
2021-06-08 12:45:24 313
原创 大数据篇--Spark常见面试题总结一
文章目录一、Spark on YARN两种方式的区别以及工作流程1.Yarn组件简介:2.spark on yarn cluster 模式:3.spark on yarn client 模式:一、Spark on YARN两种方式的区别以及工作流程1.Yarn组件简介:ResourceManager:负责整个集群的资源管理和资源分配NodeManager:每个节点的资源和任务的管理器,负责启动和停止Container,并监视资源使用情况ApplicationMaster:Yarn中每个Appli
2021-06-02 12:24:47 918 1
原创 大数据篇--数据倾斜
文章目录一、什么是数据倾斜一、什么是数据倾斜 简单的讲,数据倾斜就是我们在计算数据的时候,数据的分散度不够,导致大量的数据集中到了一台或者几台机器上计算,造成数据热点问题(数据倾斜的另一种说法),这些数据的计算速度远远低于平均计算速度,导致整个计算过程过慢。现象:大部分的task都非常快速的处理完成,只有极少数的task处理的非常慢,这种状况很可能就是数据倾斜了。对于Spark可以在WEB-UI的job=>stage=>task里看,你可以把task处理的数据量排序一下。上面场景下
2021-06-01 12:41:11 3903
原创 大数据篇--Kafka数据丢失、重复与消息顺序保证
文章目录一、Kafka如何实现每秒上百万的超高并发写入二、数据重复1.Consumer重复消费数据:三、数据丢失四、Kafka的优化建议1.broker端:一、Kafka如何实现每秒上百万的超高并发写入 Kafka 是高吞吐低延迟的高并发、高性能的消息中间件,在大数据领域有极为广泛的运用。配置良好的 Kafka 集群甚至可以做到每秒几十万、上百万的超高并发写入。可参考这篇文章:页缓存技术 + 磁盘顺序写 + 零拷贝技术二、数据重复1.Consumer重复消费数据: 底层根本原因:已经消费了数据
2021-05-30 17:52:42 3822 1
原创 厨神之路八--煎炸类
文章目录一、炸馒头片一、炸馒头片1:取个大碗放入面粉和水调成面糊。 2:把馒头切成片,大小薄厚根据自己喜好。 3:切好的馒头片在面糊的碗里裹层面糊。 4:锅里烧油,七成热把裹好面糊的馒头片放入,炸的馒头片表面金黄即可捞出。 5:准备利民蒜蓉辣酱和甜面酱(1:1)混合均匀后制成馒头刷酱,再撒上孜然粉辣椒粉。趁热吃。香脆辣。...
2021-05-29 18:57:14 197
原创 大数据篇--面试总结
文章目录1.Redis的数据类型有哪些1.Redis的数据类型有哪些 Redis支持五种数据类型:string(字符串),hash(哈希),list(列表),set(集合)及zset(sorted set:有序集合)。
2021-05-27 12:04:06 393
原创 大数据篇--Spark调优
文章目录一、算子的合理选择1.map和mappartition:2.foreach和foreachpartition:一、算子的合理选择pom.xml内容:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:
2021-05-26 12:44:02 501 1
原创 大数据篇--Hive调优
文章目录一、参数调优1.严格模式:2.Fetch Task功能:3.reduce个数控制:4.map join:二、语法层面调优1.order by和sort by:2.cluster by和distribute by:3.执行计划Explain:一、参数调优1.严格模式: 在hive里面可以通过严格模式防止用户执行那些可能产生意想不到的查询,从而保护hive的集群。在严格模式下,用户在运行如下query的时候会报错:分区表的查询没有使用分区字段来限制使用了order by 但没有使用limi
2021-05-24 12:40:50 2246 2
原创 大数据篇--SQL on Hadoop
文章目录一、SQL on Hadoop业界常用框架二、SQL on Hadoop调优策略三、架构层面调优四、语法层面调优五、执行层面调优六、SQL案例实战一、SQL on Hadoop业界常用框架二、SQL on Hadoop调优策略三、架构层面调优四、语法层面调优五、执行层面调优六、SQL案例实战...
2021-05-18 21:37:09 2035
原创 大数据篇--小文件
文章目录一、小文件定义二、为什么会有小文件1.数据迁移过程中:2.处理源头文件:3.处理过程中产生:三、小文件给Hadoop集群带来的瓶颈问题四、如何解决小文件1.Hadoop中:一、小文件定义 小文件是指文件大小明显小于 HDFS 上块(block)大小(Hadoop1.x中默认64MB,在Hadoop2.x中默认为128MB)的文件。二、为什么会有小文件 Hadoop中的目录、文件、block都会以元数据(MetaData)的方式存储下来的,他们每一个的元数据大小还是不一样的,如果感兴趣的话
2021-05-18 14:51:13 1491
原创 大数据篇--HDFS
文章目录一、准备工作一、准备工作首先安装好Zookeeper:在pom.xml中添加: <dependency> <groupId>org.apache.zookeeper</groupId> <artifactId>zookeeper</artifactId> <version>3.4.5</version> &
2021-05-14 23:18:51 1414
原创 大数据篇--分布式锁
文章目录一、分布式锁的应用场景二、分布式锁的实现有哪些1.Memcached分布式锁:2.Redis分布式锁:3.Chubby:4.Zookeeper分布式锁:三、分布式锁的实现思路四、分布式锁的实现(下订单的Springboot程序)一、分布式锁的应用场景 为了保证一个方法或属性在高并发情况下的同一时间只能被同一个线程执行,在传统单体应用单机部署的情况下,可以使用Java并发处理相关的API(如ReentrantLock或Synchronized)进行互斥控制。在单机环境中,Java中提供了很多并发
2021-05-14 14:16:09 269 3
原创 Linux篇--高频常用命令
文章目录一、检索内容(grep)二、内容处理(awk)三、内容替换(sed)一、检索内容(grep)我们先准备两个文件:[root@192 mnt]# cat hehe1.txt hello worldhello hadoophello hive[root@192 mnt]# cat hehe2.txt I love you!Hello world.查询带有ve的内容:管道操作符|:多个指令连接起来,前一个指令的结果作为下一个指令的输入grep -v:是反向查找的意思,比如 g
2021-05-13 22:59:55 5112 21
原创 Java篇--JVM三(垃圾回收GC)
文章目录一、垃圾回收算法1.判定对象是否是垃圾的标准2.判定对象是否是垃圾的算法(1)引用计数算法(2)可达性分析算法3.谈谈你所了解的垃圾回收算法(1)标记-清除算法:Mark and Sweep(2)复制:Copying(3)标记-整理算法:(4)分代收集算法:二、垃圾收集器1.串行收集器:Serial Collector2.并行收集器:Parallel Collector3.并发收集器:Concurrent Collector一、垃圾回收算法1.判定对象是否是垃圾的标准一个对象有没有被其他对象所
2021-04-30 09:24:00 210
原创 Java篇--JVM二(内存结构)
文章目录一、垃圾回收算法1.判定对象是否是垃圾的标准2.判定对象是否是垃圾的算法(1)引用计数算法(2)可达性分析算法3.谈谈你所了解的垃圾回收算法(1)标记-清除算法:Mark and Sweep(2)复制:Copying(3)标记-整理算法:(4)分代收集算法:二、垃圾收集器1.串行收集器:Serial Collector2.并行收集器:Parallel Collector3.并发收集器:Concurrent Collector一、垃圾回收算法1.判定对象是否是垃圾的标准一个对象有没有被其他对象所
2021-04-28 22:17:12 251
原创 Java篇--多线程三
文章目录一、生产者和消费者实现二、可重入锁实现一、生产者和消费者实现Clothes.java:package com.xiaoqiang.interview.thread;/** * Created by Huiq on 2021/4/22. */public class Clothes { private String name; private String sex; public synchronized void set(String name, Stri
2021-04-22 20:42:34 100
原创 Java篇--多线程一
文章目录一、两种创建方式1.继承Thread类2.实现Runnable接口一、两种创建方式1.继承Thread类2.实现Runnable接口
2021-04-13 13:16:44 145
原创 Java篇--反射和注解综合使用
文章目录自定义简单版ORMapping框架:自定义简单版ORMapping框架:在mysql中创建相应的表:create table t_user( id int not null auto_increment, name varchar(10) not null, age int not null, birth_day date, primary key(id));...
2021-04-11 22:49:23 177
原创 Java篇--注解
文章目录注解:1.Annotation的一个定义及如何标识在一个类上(1)定义一个Annotation:(2)标识在一个类上:2.如何获取这个类上的注解3.给字段定义一个Annotation注解:JDK5引入的新特性注解可以大大提升编码效率以及代码的精简注解可以使用在package/Class/Field/Method上定义:通过@interface关键字进行定义public @interface MyTestAnnotation {}1.Annotation的一个定义及如何标识在
2021-04-11 19:16:50 129
原创 Java篇--反射
1.使用反射来获取构造器(getConstructor/getConstructors)2.使用指定的构造器实例化对象(newInstance) 反射之method详解
2021-04-07 23:09:18 228
原创 专栏导航篇
一、前言: 大数据中很多框架Hadoop、Hive、Hbase、Elasticsearch、Storm、Spark、Flink等都支持java来开发的,所以说对于java基础的考察也是必不可少的。对于大数据这块所需要的java知识也不是非常多,但是开发的话javase是必须要掌握的。 下面这些虽然是属于java篇,但是与大数据框架的一个调优是息息相关的。1.反射: 反射是一切框架的一个根源,如果没有反射那么所有框架就无从谈起。2.注解: 在工作中,经常情况下注解和反射是要结合起来使用的。
2021-03-31 22:52:25 209
原创 各组件经典例子wordcount总结
面试中总会有那么几个奇葩让默写一下Wordcount的代码也是醉了,所以在这里就总结一下吧。[hadoop@h71 q1]$ vi hello.txthello worldhello hadoophello hivehello hadoophello worldhello world[hadoop@h71 q1]$ hadoop fs -mkdir /input[hadoop@h71 q1]$ hadoop fs -put hello.txt /input一、hadoop2版本:源码
2021-03-26 13:29:01 317
原创 Spring Boot与数据访问六--整合JPA
一、引入JPA可以在一开始创建项目的时候就勾选JPA模块也可以直接在pom.xml文件中添加配置 <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-data-jpa</artifactId> </dependency>用图
2021-03-22 23:27:12 196 1
原创 Spring Boot与数据访问五--整合MyBatis(配置版)
引入MyBatis可以在一开始穿件项目的时候就勾选MyBatis模块也可以直接在pom.xml文件中添加配置 <dependency> <groupId>org.mybatis.spring.boot</groupId> <artifactId>mybatis-spring-boot-starter</artifactId> <version>
2021-03-17 22:42:07 205 2
原创 Spring Boot与数据访问三--整合Druid
在pom.xml文件中添加配置引入durid数据源 <dependency> <groupId>com.alibaba</groupId> <artifactId>druid</artifactId> <version>1.1.9</version> </dependency>在配置文件applicatio
2021-03-15 23:01:15 530 2
原创 Spring Boot与数据访问二--使用原生JDBC及源码解析
数据源的相关配置都在DataSourceProperties里面:自动配置原理:在包org.springframework.boot.autoconfigure.jdbc下面1、参考DataSourceConfiguration,根据配置创建数据源,默认使用hikari连接池,可以使用spring.datasource.type指定自定义的数据源类型。2、SpringBoot默认可以支持:oracle.ucp.jdbc.PoolDataSource、org.apache.commons.dbcp2
2021-03-14 15:27:14 560
原创 Python模块学习--uuid
>>> import uuid>>> # make a UUID based on the host ID and current time>>> uuid.uuid1()UUID('a8098c1a-f86e-11da-bd1a-00112444be1e')>>> # make a UUID using an MD5 hash of a namespace UUID and a name>>> uuid
2021-03-14 09:23:53 1092
原创 Spring Boot与数据访问一--Spring Data介绍
简介 对于数据访问层,无论是SQL还是NOSQL,Spring Boot默认采用整合Spring Data的方式进行统一处理,添加大量自动配置,屏蔽了很多设置。引入各种xxxTemplate,xxxRepository来简化我们对数据访问层的操作。对我们来说只需要进行简单的设置即可。 Spring Data是整个Spring技术栈中的一个项目 Spring Data不止能访问关系型数据库,也能访问非关系型数据库 我们要使用数据访问的功能,就得导入相应的Starters(场景启动器),我们
2021-03-10 21:39:23 377 3
原创 Spring Boot与数据访问四--整合MyBatis(注解版)
一、创建一个SpringBoot项目二、引入相关依赖 <!--web核心依赖--> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-web</artifactId> </dependency>
2021-02-26 17:26:11 224 1
原创 MyBatis简单例子快速入门
一、理解什么是MyBatis? MyBatis 是支持普通 SQL 查询,存储过程和高级映射的优秀持久层框架。 MyBatis 消除了几乎所有的 JDBC 代码和参数的手工设置以及对结果集的检索。 MyBatis 可以使用简单的XML 或注解用于配置和原始映射,将接口和 Java 的 POJO( Plain Old Java Objects,普通的Java 对象)映射成数据库中的记录。MyBATIS 目前提供了三种语言实现的版本,包括:Java、.NET以及Ruby。它提供的持久层框架包括SQL
2021-02-25 23:17:43 432
原创 Spring Boot与数据访问七--多数据源
在用springboot开发项目时,随着业务量的扩大,我们通常会进行数据库拆分或是引入其他数据库,从而我们需要配置多个数据源,下面基于Spring-data-jpa配置多数据源,希望对大家有所帮助。项目目录结构:1、先在application.yml 中配置多个数据库:spring: datasource: username: root password: 123456 url: jdbc:mysql://localhost:3306/database1?character
2021-02-03 19:27:49 291
原创 git命令总结
Git与SVN最主要区别:SVN是集中式版本控制系统,版本库是集中放在中央服务器的,而工作的时候,用的都是自己的电脑,所以首先要从中央服务器得到最新的版本,然后工作,完成工作后,需要把自己做完的活推送到中央服务器。集中式版本控制系统是必须联网才能工作,对网络带宽要求较高。Git是分布式版本控制系统,没有中央服务器,每个人的电脑就是一个完整的版本库,工作的时候不需要联网了,因为版本都在自己电脑上。协同的方法是这样的:比如说自己在电脑上改了文件A,其他人也在电脑上改了文件A,这时,你们两之间只需把各自的修改
2021-01-20 18:34:44 1647
原创 厨神之路七--炖菜
文章目录一、炖菜一、炖菜将猪排焯一下捞出,锅中倒入油,放入葱蒜末小火翻炒一会儿再放入猪排翻炒,再放入豆角,倒入适量的料酒、耗油、生抽翻炒,最后放入南瓜和土豆,倒入适量的水,加入适量的盐,大火炖的汁不多的时候就可以出锅了。...
2021-01-10 23:41:52 278
原创 厨神之路六--凉拌菜
文章目录一、凉拌藕一、凉拌藕莲菜洗净去皮,再洗净!切成薄丝或者片,切莲菜的时候,烧一锅水备用。水开后,倒入莲菜片,水开后一两分钟即可(这里可依个人喜好作调整,喜欢口感脆些的煮到沸腾就好,喜欢软些的则可多煮几分钟)。捞出,放入适量生抽、耗油、陈醋、盐、葱蒜末,可加少量白棉糖提鲜,然后拌匀放凉即可开食。...
2021-01-10 15:03:18 349
原创 厨神之路五--粥汤类
文章目录一、疙瘩汤一、疙瘩汤西红柿去皮切小块,鸡蛋打散备用。面粉放入碗内加水用筷子搅拌,记住水要一点一点加,这样才能搅拌出均匀的小面疙瘩。葱花切碎备用。锅内倒入适量植物油,烧至八成热。西红柿下锅翻炒,尽量炒的时间久一点,把西红柿块炒成泥。加入适量白糖,然后倒入适量水,大火烧开(如果前面西红柿没有去皮可以在这一步把皮挑出)。水开后倒入面疙瘩,注意要缓缓倒入,不要一下子倒进去,不然会容易沾在一起。倒入后尽快翻拌均匀,这样不容易有大的面块。面疙瘩煮一会后倒入准备好的蛋液,倒入蛋液后也要快速搅匀。然后加
2020-12-20 22:41:44 342
SimHei MAC字体资源
2024-04-23
hadoop.dll 文件,解决报错所需文件
2024-04-11
HDP3.1.5.0+Ambari2.7.5安装部署(Centos7.2)所需的三台Ambari镜像
2023-04-13
Snort_3.0.0-a4-241_on_Ubuntu_14_and_16.pdf
2018-02-09
elasticsearch-2.2.0.tar.gz
2017-09-19
flumee.zip
2017-08-03
winutils.exe
2017-07-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人