Xiaofeiii_-CSDN博客

原创教育项目笔记（6）

通过执行计划查看是否生效：expalin ----->当前的这种优化方案，需要非常大的内存资源才可以运行，如果没有，yarn会安排这些任务依次执行，导致执行效率更差，如果在生产环境中，完全可以开启。（2）生成DWM层数据：由于DWM层的字段是来源于事实表和所有维度表中的字段，此时如果生成DWM层数据，必须要先将所有的表关联在一起。①对于行组索引，建议是常开：在插入数据，如果不明确对哪个字段使用行组索引，可以任意的插入，在条件合适情况下，也在使用行组索引。员工表.tdepart_id = 部门表.id；

2024-01-11 20:12:25 818

原创教育项目笔记（5）

在统计季度的时候，只需要统计加上这一天以后这一年对应的这一季度的数据即可，之前的季度是不需要统计的；：customer_relationship(客户意向表)--->事实表，employee（员工表）--->维度表，scrm_department(部门表)--->维度表，customer_clue（线索表）--->维度表，itcast_school(校区表)--->维度表，itcast_subject(学科表）--->维度表，customer（客户表）--->维度表。当年当季度的统计结果数据在哪个分区下？

2024-01-11 20:02:19 884

原创教育项目笔记（4）

注意：在执行转换操作的时候，由于需要进行两表联查操作，其中一个表数据量比较少，此时hive会对其优化，采用map join的方案进行处理，而map join需要将小表的数据加载到内存中，但是内存不足，导致出现内存溢出错误，此错误可能会出现两个信息：第一个信息：return code 1；d.在yarn中配置各个节点的核心数：直接在cm的yarn的配置目录下搜索：yarn.nodemanager.resource.cpu-vcores。一般不做任何修改，默认即可。：用于资源的分配（资源：内存，cpu）；

2023-12-24 16:30:00 850 1

原创教育项目笔记（3）

指标统计字段+各个维度字段+三个经验字段（time_type,group_time,time_str）sid_total,sessionid_total,ip_total,yearinfo,quarterinfo,monthinfo,dayinfo,hourinfo,area,origin_channel,seo_source,from_url,time_type,group_time,time_str。建议在导入的时候不管是顺序还是名字都保持一致，目前主要采用hcatalog的方式。

2023-12-17 18:39:55 919 1

原创教育项目笔记（2）

指的是数据从数据源将数据灌入到ODS层，以及从ODS层将数据抽取出来，对数据进行转换处理工作，最终将数据加载到DW层，然后DW层对数据进行统计分析，将统计分析后的数据灌入到DA层，整个全过程都是属于ETL的范畴。数据库（OLTP）：T（事务）面向于事务（业务）的，主要是用于捕获数据，主要是存储的最近一段时间内的业务数据，延迟性比较低（交互式强），一般不允许出现数据冗余。维度建模：主要存在分析型数据库建模方案上，主要是一切以分析为目标，只要是利于分析的建模，都是可以的，允许出现一定的冗余，表可以没有主键。

2023-12-11 21:56:30 834 1

原创 hive（3）+教育项目笔记（1）

首先业务是存储在MySQL数据库中, 通过sqoop对MySQL的数据进行数据的导入操作, 将数据导入到HIVE的ODS层中, 对数据进行清洗转换成处理工作, 处理之后对数据进行统计分析, 将统计分析的结果基于sqoop在导出到MySQL中, 最后使用finebi实现图表展示操作, 由于分析工作是需要周期性干活, 采用ooize进行自动化的调度工作, 整个项目是基于cloudera manager进行统一监控管理。（2）Row Data：存的是具体的数据，先取部分行，然后对这些行按列进行存储。

2023-12-03 19:41:16 51 1

原创 hive(2)

二、DML数据操作。

2023-11-26 17:30:33 63 1

原创 hadoop（3）+hive(1)

4）开启uber模式，实现JVM重用（计算方向）：默认情况下，每个Task任务都需要启动一个JVM来运行，如果Task任务计算的数据量很小，我们可以让同一个Job的多个Task运行在一个JVM中，不必为每个Task都开启一个JVM。2）Hadoop Archive（存储方向）：是一个高效的将小文件放入HDFS块中的文件存档工具，能够将多个小文件打包成一个HAR文件，从而达到减少NameNode的内存使用。（2）启动hiveserver2 :bin/hive --service hiveserver2。

2023-11-19 17:31:33 64 1

m0_74361320的博客

原创教育项目笔记（6）

原创教育项目笔记（5）

原创教育项目笔记（4）

原创教育项目笔记（3）

原创教育项目笔记（2）

原创 hive（3）+教育项目笔记（1）

原创 hive(2)

原创 hadoop（3）+hive(1)

原创 Hadoop（2）

原创 Hadoop（1）

原创 MySQL补充

原创 Linux命令补充及Shell编程

原创 Linux的基础命令、权限管理、高阶技巧

原创 SQL基础及PyMySQL基础

空空如也

空空如也