自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)
  • 收藏
  • 关注

原创 day1项目二

一.项目介绍相关术语:风险:不确定性。寿险和非寿险(财产,责任,健康,意外)。精算师。投保人:申购或缴费保险的人。被保人:以谁的生命作为标的。受益人:获取理赔金的人。保险人:保险公司。保险准备金:从保费收入或盈余中提取的所承担保险责任相对应的一定数量的基金。生命表:根据以往一定时期内各种年龄死亡统计资料编制的一种统计表。保费:投保人向保险公司缴纳的费用。保额:按照相应责任,提供的做大的保障金额。 新单:首年。续期:第二年。理赔:对客户相应支付的理赔金特点:交易频率低,存量数据巨大。实时需求小。常规保险

2022-03-14 14:00:49 4078

原创 day05作业

--创建ods层数据库CREATE DATABASE yipin_ods;--全量覆盖DROP table if exists yipin_ods.t_date;CREATE TABLE if not exists yipin_ods.t_date( dim_date_id string COMMENT '日期', date_code string COMMENT '日期编码', lunar_calendar str

2022-03-09 15:38:59 145

原创 day04项目一

一.ODS层增量数据采集操作模拟新增和更新数据:1.1新增和更新SQL:1.2完成增量采集操作:日期表如果更新的频次以天为基准,对于全量覆盖的表来说,每天都是将之前的所有的数据全部删除,然后重新导入操作即可。一般建议先将表删除,然后重新建表DROP table if exists yp_ods.t_date;CREATE TABLE if not exists yp_ods.t_date( dim_date_id string COMMENT '日期',

2022-03-08 09:22:37 152

原创 day03项目一

一.数仓工具clouderamanager二.sqoop是一款apache旗下的数据导入导出工具,主要的作用:用于将关系型数据库中数据导入到hadoop生态圈,以及hadoop生态圈数据导出到关系型数据库sqoop专为关系型数据库和hadoop之间的ETL而生,支持海量数据,符合项目的需求,且操作门槛低sqoop的使用3.1sqoop1以client客户端的形式存在和运行,没有任务没有进程存在3.2sqoop2以B/s服务器的形式去运行3.3工作机制:将导入和导出命令转换为mapr

2022-03-07 14:23:46 2271

原创 day02项目一

一.数据仓库介绍什么是数据仓库答:面对主体的,对数据进行统计分析,存储历史数据,对未来提供决策支持数据仓库的最大特征答:既不生产数据,也不消耗数据;数仓的四大特点答:面向主体(分析什么什么就是主题)、集成性(数据的种类 来源比较多,需要将各个来源的数据全部集中在一起)、非易失性(存储的都是过去既定发生的数据,这些数据一般不会出现变更)、时变性(随着时间推移,原有分析方案无法满足分析要求,需要更新分析手段,以及数据也会进行新增操作)ETL答:数据抽取,数据转换,数据装载。狭义上ETL:从o

2022-03-03 10:26:34 1737

原创 day01项目一

一. 背景介绍线下+线上+物流=新零售业务需求:2.1业务系统流程2.1.1商品发布流程:平台:创建商品分类–>创建品牌–>创建商品SPU(商品的所有信息) 审核商家:创建商品SKU(具体款式)2.1.2单店铺订单流程2.1.3购物车订单流程2.1.4配送流程图:2.1.5退货业务流程项目架构:HUE编写hive sql;clouderamanager介绍:用于管理cdh群集的b/s应用,通过对cdh的每个部分提供细粒度的可视性和控制来设置企业部署的标

2022-03-02 14:28:17 885

原创 day07hbase2

一.回顾功能:提供随机实时大数据量的读写。主要用于离线是为了提高离线存储和计算性能,实时是存储大量实时ETL的结果基本概念:namespace:命名空间,当做数据库,每一张表都必须属于某个ns;表是分布式结构;rowkey行键唯一标识一行,作为hbase的唯一索引,每张表自带这一列,这一列需要足迹设计;columnFamily:列族对列的分组提高读的性能hbase架构:主从架构;hmaster:管理节点,管理从节点,管理region分配,管理元数据;HRegionServer:管理数据存储,存储所有

2022-02-28 17:02:57 853

原创 day06hbase

一.HBASE基本介绍hbase基本介绍:基于hadoop的分布式可扩展的大数据存储的基于内存列存储nosql数据库,持久性存储,基于内存存储。设计思想:基于内存达到实时性效果;基于分布式磁盘直接使用HDFS;基于分布式内存+分布式磁盘;实时,数据一产生写入,就立即要读取计算主要用于离线场景,用于提升离线存储的性能使用的是jvm堆内存:内存操作日志Hbase与HDFS、Redis。kafka区别:Hbase与Mysql的区别Hbase与Hive的区别HBASE中的对象:names

2022-02-24 15:18:27 672

原创 day05kafka

一. 回顾对于topic的管理:kafka-topic.sh生产数据负载均衡:先判断是否指定分区,判断自定义分区器,在判断是否指定了key (指定类似hash,没有的话黏性分区)kafka生产数据时不丢失:应答机制和重试机制:acks应答机制(0生产者发送数据到对应的分区,不用返回ack,直接发送下一条;1.生产者写入数据到对应的分区leader副本中,kafka返回ack,生产者收到ack再发送下一条;all:生产者写入数据到对应的分区的leader副本中,等待所有可用副本同步成功,再返回ack)

2022-02-23 13:38:03 625

原创 day04kafka

一. 复习kafka使用分布式公平架构,主节点:kafka controllere (负责存储和管理) 从节点:kafka broker(负责存储)如果主节点挂掉,会依赖zk重新选举。kafka的数据安全是依赖副本机制leader和follwer是topic下的part的主节点和从节点,而controller和broker是集群的二.topic管理:创建与列举...

2022-02-22 13:06:55 671

原创 day03kafka

一.消息队列的基本内容写的请求也比较多怎么解决?引入消息队列(先进先出的顺序性):解决高并发的写问题传统架构中存在的问题:redis:解决了高并发读,并发特性,数据安全不是最重要的(小);MQ消息队列:解决了高并发写,并发特性,最注重数据安全定义:一种异步的服务间通信方式,是分布式系统中最重要的组件,主要解决应用耦合,异步消息,流量削锋等问题,实现高性能高可用可伸缩和最终一致性架构。(消息队列MQ用于实现两个系统之间或两个模块之间传递消息数据时,实现数据缓存)功能:基于队列的方式,实现消息传递

2022-02-18 09:04:50 117

原创 day02redis

一. 从RDB切换到AOF(不能直接)开启临时AOF:config set aof yes(redis会自动判断aof是否存在文件,不存在会将当前的redis中的所有数据生成一个AOF文件,数据都在AOF文件中)关闭redis,修改配置 redis.conf中的配置重启加载AOF文件二. Redis架构:问题与主从复制集群设计单点故障问题,如果redis服务故障,整个redis服务将不可用1.1 缓存:导致缓存失效1.2 数据库:数据源失效单台机器的内存比较小,数据存储的容量不足,会导

2022-02-16 14:33:23 292

原创 第二阶段NOSQLday01

一.Redis(内存式nosql数据库)NoSQL与RDBMS1.1:RDBMS(关系型数据库mysql)的特点:体现数据之间的关系,支持事务,保障业务的完整性和稳定性,小数据量的性能也比较好。但是高并发会导致数据库奔溃。1.2NoSQL(非关系型数据库Redis,HBASE,MongoDB)的特点:一般用于高并发高性能场景下的数据缓存或者数据库存储,读写速度快,并发量高,不如RDBMS稳定,对事务性的支持不太友好。读注重并发,写注重安全。Redis的功能和应用场景:2.1定义:基于内存的分布

2022-02-14 17:42:49 354

原创 day20hive以及拉链表

一.数据采集Sqoop介绍:Hadoop生态体系和RDBMS(mysql,oracle,db2)体系之间传送数据的一种工具。import数据导入,export数据导出sqoop安装:

2022-02-10 14:24:31 1147

原创 day19hive

一.hive的调优1.本地模式:在单台机器上处理所有的任务,对于小数据集,执行时间明显缩短set hive.exec.mode.local.auto=true;//开启本地mr--设置local mr的最大输入数据量,当输入数据量小于这个值时采用local mr的方式,默认为128mset hive.exec.mode.local.auto.inputbytes.max=51234560;--设置local mr 最大输入文件个数,当输入文件个数小于这个值时采用local mr的方式默认为4se

2022-02-09 14:09:32 653

原创 day18hive

一.hive的函数转换函数:select cast(12.35 as int)select cast(‘20190607’as int)select cast(‘2020-1-15 ‘ as date)insert overwrite table t1 select tid,cast (tage as int )from t2;行转列concat(str1,str2),字段拼接concat_ws(sep ,str1,str2)以分隔符拼接每个字符串...

2022-02-08 11:21:38 643

原创 day17hive

一.动态分区use myhive;--1.开启动态分区set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;--分区模式非严格模式--2.创建中间表create table test1( id int, data_val string , name string, score int)row format delimited fields term

2022-01-27 17:28:20 2245

原创 day16hive分桶

一. 分桶表1.1概念:就是MapReduce的分区,将元数据分开存放到不同的文件,分桶就是分文件1.2作用:抽样查询,提高join桶相同1.3操作过程:开启分桶:set hive.enforce.bucketing=true;设置reduce的个数:set mapreduce.job.reduce=3;//2.x之后不起作用--创建分桶表create table course( cid int, c_name string, tid string)clus

2022-01-26 18:00:56 563

原创 day15Hive

一.Hive数据仓库(Data Warehouse):存储各种数据源,分析数据。存储需要采集工具数仓的特征:主题性(ETL:数据抽取);集成性:数据源多,抽取清洗转换;稳定性:历史数据周期内不允许修改;时变性:定期更新(月,季度,年);数据库:联机分析处理(OLAP)数据仓库的分层:源数据—>数据仓库—>数据应用源数据层:(ODS)数据比较乱数据仓库层:(DW)数据不会被修改,一致的准确的干净的数据对源数据进行了清洗后的数据...

2022-01-26 14:44:59 1953

原创 day13

一.分组分区的区别分区靠前:将键值对分到不同的文件,文件拆分分组是同一个文件内部,键的处理,相同keyMapReduce

2022-01-24 18:41:41 503

原创 day12mapReduce

2022-01-18 11:17:18 222

原创 day11MapReduce

一.

2022-01-14 13:19:19 560

原创 day09HDFS

一.HDFS的元数据辅助管理(SecondaryNameNode)namenode的作用:管理元数据Fsimage文件(镜像,存储几乎所有的元数据,不会立刻更新) Edits文件(日志文件,存储最近一段时间元数据,数据格式不一样慢)SecondaryNameNode辅助管理元数据:隔段时间将fsimage和edits文件拷贝到所在主机,将两个文件合并,合并成新的fsimage.ckpt文件替换旧的fsimage,生成edits.new文件最后到edits。触发条件:每隔一小时,或edits文件大于64

2022-01-04 16:34:08 696

原创 day08 hdfs

一.HDFS的Shell命令行使用hadoop fs +参数(本地和分布式)或hdfs dfs+参数(页面)hadoop fs -ls hdfs://node1(namenode):8020/dir常用:-ls,-lsr (递归显示目录),-mkdir /目录名( -mkdir -p/目录)递归创建目录,-put上传(复制),-moveFromLocal(剪切上传),-get /原路径 /目标路径(下载),-getmerge (合并下载),-mv(不能跨文件系统),-rm删除(Erro错误),-

2021-12-29 10:51:34 815

原创 day07 hdfs

一.HDFS分布式文件系统元数据:描述数据的数据分布式存储:横向扩展,无感添加,数据查询的便捷:借助元数据记录(留一台主机专门记录存储位置namenode);大文件传输慢:分块存储;数据丢失:副本机制(同一文件多存几份);查询视觉统一:namespace;(牺牲了容量提高安全)HDFS简介:使用多台计算机存储文件,并且提供统一的访问接口HDFS设计目标:能够进行故障监测快速恢复,保障吞吐量,适合存储大文件 ,写入后不需要修改使用场景:存储大文件;基于流的数据访问;只支持对文件追加修改,不

2021-12-28 14:49:10 747

原创 06hadoop1

一.zookeeper1.zookeeper watcher(监听机制)watch机制是zookeeper自动监控某一个znode节点的生死和状态变化(节点创建,节点删除,节点改变,子节点改变);如果监控的事件发生了会触发执行行为;提供了分布式数据发布和订阅功能,一对多的订阅关系watch机制有三个过程:客户端向服务器注册watcher;服务端事件发生触发watcher;客户端回调watcher得到触发事件情况2.watcher机制的特点:a:一次性触发(命令行)事件发生触发监听,一个wat

2021-12-23 10:39:50 997

原创 05hadoop

一. Zookeeper1.zookeeper基本知识(过半机制)大数据的生态圈1.1zookeeper概述zookeper是分布式协调服务的开源框架用来解决分布式集群中应用系统的一致性问题。本质是一个分布式的小文件存储系统。目录树的方式存储数据1.2. zookeeper的特性1.全局数据一致性:集群中每个服务器保存一份相同的数据副本,client无论连接到那个服务器展示的数据是一致的2.可靠性:如果消息被一台服务器接受,那么将被所有服务器接受3.顺序性:包括全局有序和偏序两种:全局有

2021-11-02 17:56:10 884

原创 04shell脚本

一. 流程控制1.条件判断:数字: -eq相等==; -ne 是否不相等; -gt大于; -lt小于; -ge大于等于 ;-le小于等于字符串:-n string长度不为0,;-z string字符串长度为0; =是否一样;!=是否不一样;文件:-f 存在且是普通文件;-d存在且是目录;-h存在且是符号链接;-e文件存在;-r存在并且可读;-w存在可写;-x存在可执行;2.if语句(if后一般是[])if conditionthenccommand1fi例子:中括号两边必须留空格

2021-11-01 13:01:40 44

原创 03linux服务器shell编程

一.按装mysql1.在线安装 yum -y install mysqld2.rpm安装 下载rpm软件包3.离线配置安装41二级目录三级目录

2021-10-31 00:12:08 86

原创 开发环境构建02

一.搭建三台虚拟机1. iso镜像文件2.直接复制第一台(克隆需要关机)a.配置mac地址b. ip地址修改vim /etc/sysconfig/network-scripts/ifcfg-ens33c.重启网络systemctl restart network3.使用crt链接三台虚拟机4.设置主机名和域名映射改主机名:vim /etc/hostname配置虚拟机域名映射:vim /etc/hosts192.168.88.161 node1 node1.itcast.cn

2021-10-14 16:58:42 78

原创 Linux开发环境构建01

1.安装虚拟机:通过命令安装lrzsz上传下载的软件命令:yum -y install lrzszrz 回车上传文件 ||或者拖拽选择最后一个下载命令 sz 文件名下载的地址设置:2.linux目录home是普通用户的家,etc配置信息,root超级用户3.常用linux命令ls查看当前目录文件pwd显示当前目录所在文件夹ls -a 显示隐藏文件ls -l 显示参数ls -al 显示影藏文件与参数 llmkdir创建文件夹 mkdir -p aaa/bb/c 创建多个文件

2021-10-13 11:29:49 53

原创 day03

1.变量:成员变量 :类里方法外不需要初始化局部变量:方法里,必须初始化2.方法的重载 :体现程序的灵活性,方法名相同,参数列表不同3.方法的重写: 方法名,参数列表,返回值类型相同 修饰符子类>=父类,异常<=父类4.实参 调用方法时具体的参数值,形参:定义方法时参数的类型5.数组的创建:动态初始化:int [] a=new int[6], 长度不可变静态初始化:int [] a ={1,2,3,4,5} ,int [] a=new int[]{1,2,3,4,5}6.数组工具

2021-03-16 19:00:03 37

原创 day02

1.基本数据类型整形:byte shortint long浮点数:float double字符型 char布尔型:boolean2.类型转换:2.1隐式转换:小类型转换为大类型2.2现型转换:大类型转换为小类型需要强转3.进制前缀:二进制:0b八进制:0(零)十进制:十六进制:0x4.运算规则:4.1.运算结果和大类型保持一致4.2byte short char 运算时结果转int4.3整数运算溢出4.4浮点数运算不精确4.5NAN not a number 0/0.0

2021-03-14 17:20:43 35

原创 Javaee day01

1.Java跨平台2.jdk

2021-03-12 20:02:17 56

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除