自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 教育项目笔记(6)

通过执行计划查看是否生效:expalin ----->当前的这种优化方案,需要非常大的内存资源才可以运行,如果没有,yarn会安排这些任务依次执行,导致执行效率更差,如果在生产环境中,完全可以开启。(2)生成DWM层数据:由于DWM层的字段是来源于事实表和所有维度表中的字段,此时如果生成DWM层数据,必须要先将所有的表关联在一起。①对于行组索引,建议是常开:在插入数据,如果不明确对哪个字段使用行组索引,可以任意的插入,在条件合适情况下,也在使用行组索引。员工表.tdepart_id = 部门表.id;

2024-01-11 20:12:25 812

原创 教育项目笔记(5)

在统计季度的时候,只需要统计加上这一天以后这一年对应的这一季度的数据即可,之前的季度是不需要统计的;:customer_relationship(客户意向表)--->事实表,employee(员工表)--->维度表,scrm_department(部门表)--->维度表,customer_clue(线索表)--->维度表,itcast_school(校区表)--->维度表,itcast_subject(学科表)--->维度表,customer(客户表)--->维度表。当年当季度的统计结果数据在哪个分区下?

2024-01-11 20:02:19 875

原创 教育项目笔记(4)

注意:在执行转换操作的时候,由于需要进行两表联查操作,其中一个表数据量比较少,此时hive会对其优化,采用map join的方案进行处理,而map join需要将小表的数据加载到内存中,但是内存不足,导致出现内存溢出错误,此错误可能会出现两个信息:第一个信息:return code 1;d.在yarn中配置各个节点的核心数:直接在cm的yarn的配置目录下搜索:yarn.nodemanager.resource.cpu-vcores。一般不做任何修改,默认即可。:用于资源的分配(资源:内存,cpu);

2023-12-24 16:30:00 842 1

原创 教育项目笔记(3)

指标统计字段+各个维度字段+三个经验字段(time_type,group_time,time_str)sid_total,sessionid_total,ip_total,yearinfo,quarterinfo,monthinfo,dayinfo,hourinfo,area,origin_channel,seo_source,from_url,time_type,group_time,time_str。建议在导入的时候不管是顺序还是名字都保持一致,目前主要采用hcatalog的方式。

2023-12-17 18:39:55 908 1

原创 教育项目笔记(2)

指的是数据从数据源将数据灌入到ODS层,以及从ODS层将数据抽取出来,对数据进行转换处理工作,最终将数据加载到DW层,然后DW层对数据进行统计分析,将统计分析后的数据灌入到DA层,整个全过程都是属于ETL的范畴。数据库(OLTP):T(事务)面向于事务(业务)的,主要是用于捕获数据,主要是存储的最近一段时间内的业务数据,延迟性比较低(交互式强),一般不允许出现数据冗余。维度建模:主要存在分析型数据库建模方案上,主要是一切以分析为目标,只要是利于分析的建模,都是可以的,允许出现一定的冗余,表可以没有主键。

2023-12-11 21:56:30 824 1

原创 hive(3)+教育项目笔记(1)

首先业务是存储在MySQL数据库中, 通过sqoop对MySQL的数据进行数据的导入操作, 将数据导入到HIVE的ODS层中, 对数据进行清洗转换成处理工作, 处理之后对数据进行统计分析, 将统计分析的结果基于sqoop在导出到MySQL中, 最后使用finebi实现图表展示操作, 由于分析工作是需要周期性干活, 采用ooize进行自动化的调度工作, 整个项目是基于cloudera manager进行统一监控管理。(2)Row Data:存的是具体的数据,先取部分行,然后对这些行按列进行存储。

2023-12-03 19:41:16 44 1

原创 hive(2)

二、DML数据操作。

2023-11-26 17:30:33 58 1

原创 hadoop(3)+hive(1)

4)开启uber模式,实现JVM重用(计算方向):默认情况下,每个Task任务都需要启动一个JVM来运行,如果Task任务计算的数据量很小,我们可以让同一个Job的多个Task运行在一个JVM中,不必为每个Task都开启一个JVM。2)Hadoop Archive(存储方向):是一个高效的将小文件放入HDFS块中的文件存档工具,能够将多个小文件打包成一个HAR文件,从而达到减少NameNode的内存使用。(2)启动hiveserver2 :bin/hive --service hiveserver2。

2023-11-19 17:31:33 56 1

原创 Hadoop(2)

RS-3-2-1024k:使用RS编码,每3个数据单元,生成2个校验单元,共5个单元,也就是说:这5个单元中,只要有任意的3个单元存在(不管是数据单元还是校验单元,只要总数=3),就可以得到原始数据。容器资源分配:按照容器的优先级分配资源,如果优先级相同,按照数据本地性原则:任务和数据在同一节点,任务和数据在同一机架,任务和数据不在同一节点也不在同一机架。RS-10-4-1024k、RS-6-3-1024k、RS-LEGACY-6-3-1024k、XOR-2-1-1024k类似。

2023-11-12 16:14:14 39 1

原创 Hadoop(1)

虚拟存储过程:将输入目录下所有文件大小,依次和设置的setMaxInputSplitSize值比较,如果不大于设置的最大值,逻辑上划分一个块。如果不大于则跟下一个虚拟存储文件进行合并,共同形成一个切片。c.如果ReduceTask数量=1,则不管MapTask端输出多少个分区文件,最终结果都交给一个ReduceTask,最终也只有一个结果文件part-r-00000。用于小文件过多的场景,它可以将多个小文件从逻辑上规划到一个切片中,这样,多个小文件就可以交给一个MapTask处理。

2023-11-05 16:57:01 36

原创 MySQL补充

1.概念:是一组操作的集合,它是一个不可分割的工作单位,事务会把所有的操作作为一个整体一起向系 统提交或撤销操作请求,即这些操作要么同时成功,要么同时失败。(3)幻读:一个事务按照条件查询数据时,没有对应的数据行,但是在插入数据时,又发现这行数据 已经存在,好像出现了 "幻影"。a.左外连接:左外连接相当于查询表1(左表)的所有数据,当然也包含表1和表2交集部分的数据。A. 标量子查询(子查询结果为单个值):常用的操作符:=, , >, >=,

2023-10-29 17:06:03 51 1

原创 Linux命令补充及Shell编程

注:函数返回值,只能通过$?如:[ -e /home/user/cls.txt ] #/home/user/cls.txt目录中的文件是否存在。如:只显示/etc/passwd的第一列和第七列,以逗号分隔,且在所有行前面加列名user,shell,在最后一行添加end。(1)$n:n为数字,$0表示该脚本名称,$1-$9代表第一到第九个参数,十以上的参数用大括号包含,如${10}:最后一次执行的命令的返回状态,如果为0,则说明上一个命令正确执行,非0则说明命令执行不正确。

2023-10-22 11:37:38 56 1

原创 Linux的基础命令、权限管理、高阶技巧

2023-10-15 18:42:05 46 1

原创 SQL基础及PyMySQL基础

2023-10-08 16:17:00 54 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除