lhh123lhh123-CSDN博客

原创 day1项目二

一.项目介绍相关术语：风险：不确定性。寿险和非寿险（财产，责任，健康，意外）。精算师。投保人：申购或缴费保险的人。被保人：以谁的生命作为标的。受益人：获取理赔金的人。保险人：保险公司。保险准备金：从保费收入或盈余中提取的所承担保险责任相对应的一定数量的基金。生命表：根据以往一定时期内各种年龄死亡统计资料编制的一种统计表。保费：投保人向保险公司缴纳的费用。保额：按照相应责任，提供的做大的保障金额。新单：首年。续期：第二年。理赔：对客户相应支付的理赔金特点：交易频率低，存量数据巨大。实时需求小。常规保险

2022-03-14 14:00:49 4078

原创 day05作业

--创建ods层数据库CREATE DATABASE yipin_ods;--全量覆盖DROP table if exists yipin_ods.t_date;CREATE TABLE if not exists yipin_ods.t_date( dim_date_id string COMMENT '日期', date_code string COMMENT '日期编码', lunar_calendar str

2022-03-09 15:38:59 145

原创 day04项目一

一.ODS层增量数据采集操作模拟新增和更新数据：1.1新增和更新SQL：1.2完成增量采集操作：日期表如果更新的频次以天为基准，对于全量覆盖的表来说，每天都是将之前的所有的数据全部删除，然后重新导入操作即可。一般建议先将表删除，然后重新建表DROP table if exists yp_ods.t_date；CREATE TABLE if not exists yp_ods.t_date( dim_date_id string COMMENT '日期',

2022-03-08 09:22:37 152

原创 day03项目一

一.数仓工具clouderamanager二.sqoop是一款apache旗下的数据导入导出工具，主要的作用：用于将关系型数据库中数据导入到hadoop生态圈，以及hadoop生态圈数据导出到关系型数据库sqoop专为关系型数据库和hadoop之间的ETL而生，支持海量数据，符合项目的需求，且操作门槛低sqoop的使用3.1sqoop1以client客户端的形式存在和运行，没有任务没有进程存在3.2sqoop2以B/s服务器的形式去运行3.3工作机制：将导入和导出命令转换为mapr

2022-03-07 14:23:46 2271

原创 day02项目一

一.数据仓库介绍什么是数据仓库答：面对主体的，对数据进行统计分析，存储历史数据，对未来提供决策支持数据仓库的最大特征答：既不生产数据，也不消耗数据；数仓的四大特点答：面向主体（分析什么什么就是主题）、集成性（数据的种类来源比较多，需要将各个来源的数据全部集中在一起）、非易失性（存储的都是过去既定发生的数据，这些数据一般不会出现变更）、时变性（随着时间推移，原有分析方案无法满足分析要求，需要更新分析手段，以及数据也会进行新增操作）ETL答：数据抽取，数据转换，数据装载。狭义上ETL：从o

2022-03-03 10:26:34 1737

原创 day01项目一

一. 背景介绍线下+线上+物流=新零售业务需求：2.1业务系统流程2.1.1商品发布流程：平台：创建商品分类–>创建品牌–>创建商品SPU（商品的所有信息）审核商家：创建商品SKU（具体款式）2.1.2单店铺订单流程2.1.3购物车订单流程2.1.4配送流程图：2.1.5退货业务流程项目架构：HUE编写hive sql；clouderamanager介绍：用于管理cdh群集的b/s应用，通过对cdh的每个部分提供细粒度的可视性和控制来设置企业部署的标

2022-03-02 14:28:17 885

原创 day07hbase2

一.回顾功能：提供随机实时大数据量的读写。主要用于离线是为了提高离线存储和计算性能，实时是存储大量实时ETL的结果基本概念：namespace：命名空间，当做数据库，每一张表都必须属于某个ns；表是分布式结构；rowkey行键唯一标识一行，作为hbase的唯一索引，每张表自带这一列，这一列需要足迹设计；columnFamily：列族对列的分组提高读的性能hbase架构：主从架构；hmaster：管理节点，管理从节点，管理region分配，管理元数据；HRegionServer：管理数据存储，存储所有

2022-02-28 17:02:57 853

原创 day06hbase

一.HBASE基本介绍hbase基本介绍：基于hadoop的分布式可扩展的大数据存储的基于内存列存储nosql数据库，持久性存储，基于内存存储。设计思想：基于内存达到实时性效果；基于分布式磁盘直接使用HDFS；基于分布式内存+分布式磁盘；实时，数据一产生写入，就立即要读取计算主要用于离线场景，用于提升离线存储的性能使用的是jvm堆内存：内存操作日志Hbase与HDFS、Redis。kafka区别：Hbase与Mysql的区别Hbase与Hive的区别HBASE中的对象：names

2022-02-24 15:18:27 672

原创 day05kafka

一. 回顾对于topic的管理：kafka-topic.sh生产数据负载均衡：先判断是否指定分区，判断自定义分区器，在判断是否指定了key （指定类似hash，没有的话黏性分区）kafka生产数据时不丢失：应答机制和重试机制：acks应答机制（0生产者发送数据到对应的分区，不用返回ack，直接发送下一条；1.生产者写入数据到对应的分区leader副本中，kafka返回ack，生产者收到ack再发送下一条；all：生产者写入数据到对应的分区的leader副本中，等待所有可用副本同步成功，再返回ack）

2022-02-23 13:38:03 625

原创 day04kafka

一. 复习kafka使用分布式公平架构，主节点：kafka controllere （负责存储和管理）从节点：kafka broker（负责存储）如果主节点挂掉，会依赖zk重新选举。kafka的数据安全是依赖副本机制leader和follwer是topic下的part的主节点和从节点，而controller和broker是集群的二.topic管理：创建与列举...

2022-02-22 13:06:55 671

原创 day03kafka

一.消息队列的基本内容写的请求也比较多怎么解决？引入消息队列（先进先出的顺序性）：解决高并发的写问题传统架构中存在的问题：redis：解决了高并发读，并发特性，数据安全不是最重要的（小）；MQ消息队列：解决了高并发写，并发特性，最注重数据安全定义：一种异步的服务间通信方式，是分布式系统中最重要的组件，主要解决应用耦合，异步消息，流量削锋等问题，实现高性能高可用可伸缩和最终一致性架构。（消息队列MQ用于实现两个系统之间或两个模块之间传递消息数据时，实现数据缓存）功能：基于队列的方式，实现消息传递

2022-02-18 09:04:50 117

原创 day02redis

一. 从RDB切换到AOF（不能直接）开启临时AOF：config set aof yes（redis会自动判断aof是否存在文件，不存在会将当前的redis中的所有数据生成一个AOF文件，数据都在AOF文件中）关闭redis，修改配置 redis.conf中的配置重启加载AOF文件二. Redis架构：问题与主从复制集群设计单点故障问题，如果redis服务故障，整个redis服务将不可用1.1 缓存：导致缓存失效1.2 数据库：数据源失效单台机器的内存比较小，数据存储的容量不足，会导

2022-02-16 14:33:23 292

原创第二阶段NOSQLday01

一.Redis（内存式nosql数据库）NoSQL与RDBMS1.1：RDBMS（关系型数据库mysql）的特点：体现数据之间的关系，支持事务，保障业务的完整性和稳定性，小数据量的性能也比较好。但是高并发会导致数据库奔溃。1.2NoSQL（非关系型数据库Redis，HBASE，MongoDB）的特点：一般用于高并发高性能场景下的数据缓存或者数据库存储，读写速度快，并发量高，不如RDBMS稳定，对事务性的支持不太友好。读注重并发，写注重安全。Redis的功能和应用场景：2.1定义：基于内存的分布

2022-02-14 17:42:49 354

原创 day20hive以及拉链表

一.数据采集Sqoop介绍：Hadoop生态体系和RDBMS（mysql，oracle，db2）体系之间传送数据的一种工具。import数据导入，export数据导出sqoop安装：

2022-02-10 14:24:31 1147

原创 day19hive

一.hive的调优1.本地模式：在单台机器上处理所有的任务，对于小数据集，执行时间明显缩短set hive.exec.mode.local.auto=true;//开启本地mr--设置local mr的最大输入数据量，当输入数据量小于这个值时采用local mr的方式，默认为128mset hive.exec.mode.local.auto.inputbytes.max=51234560;--设置local mr 最大输入文件个数，当输入文件个数小于这个值时采用local mr的方式默认为4se

2022-02-09 14:09:32 653

原创 day18hive

一.hive的函数转换函数：select cast（12.35 as int）select cast（‘20190607’as int）select cast（‘2020-1-15 ‘ as date）insert overwrite table t1 select tid,cast (tage as int )from t2;行转列concat(str1,str2),字段拼接concat_ws(sep ,str1,str2)以分隔符拼接每个字符串...

2022-02-08 11:21:38 643

原创 day17hive

一.动态分区use myhive;--1.开启动态分区set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;--分区模式非严格模式--2.创建中间表create table test1( id int, data_val string , name string, score int)row format delimited fields term

2022-01-27 17:28:20 2245

原创 day16hive分桶

一. 分桶表1.1概念：就是MapReduce的分区，将元数据分开存放到不同的文件，分桶就是分文件1.2作用：抽样查询，提高join桶相同1.3操作过程：开启分桶：set hive.enforce.bucketing=true;设置reduce的个数：set mapreduce.job.reduce=3;//2.x之后不起作用--创建分桶表create table course( cid int, c_name string, tid string)clus

2022-01-26 18:00:56 563

原创 day15Hive

一.Hive数据仓库（Data Warehouse）：存储各种数据源，分析数据。存储需要采集工具数仓的特征：主题性（ETL：数据抽取）；集成性：数据源多，抽取清洗转换；稳定性：历史数据周期内不允许修改；时变性：定期更新（月，季度，年）；数据库：联机分析处理（OLAP）数据仓库的分层：源数据—>数据仓库—>数据应用源数据层：（ODS）数据比较乱数据仓库层：（DW）数据不会被修改，一致的准确的干净的数据对源数据进行了清洗后的数据...

2022-01-26 14:44:59 1953

原创 day13

一.分组分区的区别分区靠前：将键值对分到不同的文件，文件拆分分组是同一个文件内部，键的处理，相同keyMapReduce

2022-01-24 18:41:41 503

原创 day12mapReduce

2022-01-18 11:17:18 222

原创 day11MapReduce

一.

2022-01-14 13:19:19 560

原创 day09HDFS

一.HDFS的元数据辅助管理（SecondaryNameNode）namenode的作用：管理元数据Fsimage文件（镜像，存储几乎所有的元数据，不会立刻更新） Edits文件（日志文件，存储最近一段时间元数据，数据格式不一样慢）SecondaryNameNode辅助管理元数据：隔段时间将fsimage和edits文件拷贝到所在主机，将两个文件合并，合并成新的fsimage.ckpt文件替换旧的fsimage，生成edits.new文件最后到edits。触发条件：每隔一小时，或edits文件大于64

2022-01-04 16:34:08 696

lhhaini的博客

原创 day1项目二

原创 day05作业

原创 day04项目一

原创 day03项目一

原创 day02项目一

原创 day01项目一

原创 day07hbase2

原创 day06hbase

原创 day05kafka

原创 day04kafka

原创 day03kafka

原创 day02redis

原创第二阶段NOSQLday01

原创 day20hive以及拉链表

原创 day19hive

原创 day18hive

原创 day17hive

原创 day16hive分桶

原创 day15Hive

原创 day13

原创 day12mapReduce

原创 day11MapReduce

原创 day09HDFS

原创 day08 hdfs

原创 day07 hdfs

原创 06hadoop1

原创 05hadoop

原创 04shell脚本

原创 03linux服务器shell编程

原创开发环境构建02

原创 Linux开发环境构建01

原创 day03

原创 day02

原创 Javaee day01

空空如也

空空如也