好好揍杰杰-CSDN博客

原创今日复盘8.13

select is_frozen,xygj_device_count,app_type_count（字段） from INF3DAP.ldapd_smart_res_zhsq_development_d（表名） where p_day_id = 20240811 limit 4;配置后你执行下 INF3YTXGJ_ETL_TABLES_STORE_HDP（任务），再看下分布式主机上的存储是不是降低了。1.源端字段与接入表字段不一致，因为没有源端权限所以不知道到底是源端的问题还是介入表的问题。

2024-08-13 17:52:03 339

原创一周总结8.2

mid.inc来源于inf.inc，inf.inc是只保留近三天的数据，其中有两个字段要注意一个是时间，另一个是op-type，这个类型包含三种第一个是I，新增第二个是U，更新第三个是D，删除。对于前一天有什么增量就填到该表中，然后拍照成mid.inc表，然后对mid.inc表进行排序（时间＋主键）选择最新的数据（原因是可能有重复的数据），选取inc表中不含D的数据插入到mid表中，还有些没有变化的数据也要插入mid表中。增量拍照分为两个表，一个是mid库中的inc表，一个是目标表mid。

2024-08-02 18:02:57 402

原创今日复盘8.1

感觉自己最近怠惰了，对学习没什么热情，一方面我的注意力转移到游戏中，另一方面对现在的学习不上心，每天要做什么都提不起力气，一般这种情况摆烂几天再看个鸡汤，然后痛定思痛又能热情几天学习。select * from 表 where group_type ='1'（这个要按照指标进行分区） and time_type='1' （这个按照时间年月日来分区）附属表的话先查询主表的时间然后join副表查询的是附表的数据。如何能从表中获取这一天的数据呢？echo 大致与print类似。[]两边都要留有空格。

2024-08-01 16:55:46 229

原创今日复盘7.30

需要将以下excel表格中的内容弄成sql建表语句举例：reasonid string comment '事由类别ID',reasontype string comment '事由类别',maintenanceid string comment '维护方式',COMMENT 'MSS事由类别维度表'STORED AS代码如下：(基于。

2024-07-30 11:36:11 1416

原创今日复盘7.29

mid.inc来源于inf.inc，inf.inc是只保留近三天的数据，其中有两个字段要注意一个是时间，另一个是op-type，这个类型包含三种第一个是I，新增第二个是U，更新第三个是D，删除。对于前一天有什么增量就填到该表中，然后拍照成mid.inc表，然后对mid.inc表进行排序（时间＋主键）选择最新的数据（原因是可能有重复的数据），选取inc表中不含D的数据插入到mid表中，还有些没有变化的数据也要插入mid表中。增量拍照分为两个表，一个是mid库中的inc表，一个是目标表mid。

2024-07-29 17:03:34 105

原创今日复盘7.25

这几天状态不对，但是该做的事还是做，今天下血本花了0.66买了三小时百度网盘会员，下了30g虚拟机，解压完花了100g，内存裂开了，然后配置一波sqlyog就开始学sqoop导入数据到hdfs。输这个命令的时候，发现hue不支持我的admin用户登录了，然后用的hue普通用户，添加了root的超级用户，结果登陆的hue用户注销不了，然后发现是字符的问题。重新登陆root用户就OK啦。

2024-07-26 09:44:35 152

原创今日复盘7.24

还是很纳闷，这几天一直学理论还没有上手，就比较枯燥，去github搜数仓项目也全是大型的项目，没有练练手的项目，这该怎么办呢，数据分析多一点，其实感觉也还好，只是现在虚拟机还没没弄好就卡在这，实践不了，明天狠狠心搞个会员。上午感觉很累很迷茫，方方面面的影响让我不知所措，其实都是小事，但总是内耗。如果解决不了不如放下，潜下心来，做好该做的事情。发现黑马程序员的hive数仓项目和上硅谷的数仓项目两个使用的技术完全不一样（可能是离线和实时的区别。下午看了上硅谷的数仓项目，发现老师讲的很细很好。

2024-07-24 17:28:41 205

原创今日复盘7.23

实际上，Spark 已经很好地融入了 Hadoop 生态圈，并成为其中的重要一员，它可以借助于 YARN 实现资源调度管理，借助于 HDFS 实现分布式存储。此外，Hadoop 可以使用廉价的、异构的机器来做分布式存储与计算，但是，Spark 对硬件的要求稍高一些，对内存与 CPU 有一定的要求。分区列表、分区函数、最佳位置，这三个属性其实说的就是数据集在哪，在哪计算更合适，如何分区；计算函数、依赖关系，这两个属性其实说的是数据集怎么来的。今天学习了HUE的基础知识，它是一种集成性的软件。

2024-07-23 17:35:01 309

原创今日复盘7.22

项目有个业务流程，每个业务流程对应着一张表，里面的数据存放在mysql数据库中，通过apache sqoop导入到HIVE的ODS源数据层，然后是ETL的过程，对数据进行清洗或者转换，处理之后对数据进行分析，其结果基于sqoop导出到mysql中，然后通过FineBI实现图表展示功能。最近都全力冲击项目，虽然项目文件60多g。这咋弄呀，到时候看吧。

2024-07-23 09:24:45 153

原创今日复盘7.19

回学校走校招，要准备面试笔试，进中小厂，实习一年，出来找女朋友考完研的城市定居2，3年，期间学习技术，管理，机器学习大模型啥的，最后再转定居城市。垂死病中惊坐起，不知不觉秋招来了，本以为有个实习就万事大吉，结果现在是找工作的时候，没办法了老铁，按照原计划，然后加加班，边实习边准备秋招吧。现在的目标是2个月内搞出hive数据仓库项目，学完spark，kafka，然后搞出hive+spark数据平台。Hbase是一种分布式存储的数据库，技术上来讲，它更像是分布式存储而不是分布式数据库。

2024-07-19 16:50:08 201

原创今日复盘7.18

今天来活了，给表中的字段写业务口径和技术口径，不知道是不是打标，叫我理解代码逻辑，然后跟我讲了下整个模型的概述，我目前做的是模型借口层，主要是拍照或MID，然后是整合层，加入了简单的整合逻辑，然后是标签层，也叫中间层汇总层，负责将数据打标，（原来这个是打标）最后是报表层（应该是可视化）应用层。下午再学学爬虫，感觉可以学学ai大模型，热度在这里，等学完爬虫吧。今天爬虫学习了selenium自动化爬虫，找到浏览器驱动，先获得浏览器对象，然后访问网站，获得网站搜索的输入框和搜索按钮（记得改）

2024-07-18 17:57:29 155

原创今日复盘7.17

许久没复盘了，原因是上周末吃完海鲜吃炒菜，然后喝了接近2两清香还是什么的茅台。长见识了，然后玩通宵麻将炸金花十点半，直接这一周废了这两天没活，因为上面的权限还没申请下来，以后的工作是到数开平台每天建建宽表，最近几天呢公司内网更换浪费一天，然后做了一个小案例，先需求分析＋加载数据，etl（写sql过滤数据），建临时表完成指标，最后可视化展现，然后今天写sql30题经典，下午写写爬虫。

2024-07-18 15:03:20 118

原创今日复盘7.12

问题二：ROUND((case when B.REL_OVEROFFER_AMOUNT_AVG_3M>30 and D.PROD_INST_ID is null THEN C.ALL_REL_OFFER_AMOUNT_AVG_3M+30。上午和下午都在干活，给我这段代码是一个Perl脚本，用于数据处理和ETL（Extract, Transform, Load）任务。家人们看到这种真的晕，真的不知道怎么找。问题四：有无更方便的手段找到来源表。问题一：找不到与日期有关的字段。让我找到字段的来源表。

2024-07-12 17:31:40 421

原创今日复盘7.11

参数接受的是一个列表（['`', "'"]），但在尝试创建一个正则表达式（使用 `re.compile(sep)`）时，Python 抛出了一个 `TypeError: unhashable type: 'list'` 错误。解决办法：暂时无，想过用sep=r" \s'|' "（空格'或者')但是就是不对（正则表达式不懂），搞了好久，能力不足只能从T开始分隔，再用sep=" ' "再分隔，就很奇怪这就可以弄出来，第一次不行。# 读取txt文件数据，假设txt文件每行是一条记录，每列之间由制表符分隔。

2024-07-11 16:56:58 1567

原创今日复盘7.9

在大数据中可以用java，python等语言进行数据统计分析也可以用sql来数据统计，sql明显更好一些，其中map reduce只支持程序开发。hive是分布式计算工具，底层代码基于map reduce，主要功能是把sql语句翻译成map reduce程序运行。其中user这个是表，数据的文件会在哪里？文件中的分隔符是什么？我们需要将文件映射成一张表，这就是元数据管理，即数据位置，数据结构，对数据进行描述进行记录。有了记录以后，我们还需要一个将sql转换成map reduce的功能，即sql解析器。

2024-07-09 17:48:10 1552

原创今日复盘7.8

客户端向namenode发送写入请求，namenode允许后客户端与datanode对接并发送数据，datanode相互备份，传输完客户端对namenode报告，然后namenode开始写edits，sencondary namenode整理成fsimage。程序向resource manager申请资源，resource manager分配node manager们去调度他们负责的服务器，node manager在服务器中创建容器，提前构建一个多少g的容器，里面的资源供程序使用。

2024-07-08 17:48:07 213

原创今日复盘7.7

当我们用的时候就全都聚在一块，但是这样如果一个文件丢失，整个文件都会用不了，所以在服务器中往往会存储多个文件副本。问题1：pycharm设置打不开，网上说resouce_ch.jar包的问题，我打开lib文件夹发现我没有，下载放进去后问题依旧（可能要重启），于是我干脆重新下了新版本，结果还是要重启。hdfs fsck path [ -files [ -blocks [ -locations]]] 检查该文件的状态，有几个块几个副本，输出每一个块的详情。我的是计算机服务中ssh连接禁用了，打开后就好了。

2024-07-08 09:02:55 365

原创今日复盘7.5

删了重新下，没用还是这个，然后我去阿里云仓库找，发现有于是换版本下载，还是不行（怀疑是自动下的不行）最后开加速器上maven仓库找，发现...-start-parent这个依赖maven只有3.3.1，阿里云有3.5.6。找了一个redis项目准备在idea上跑跑结果发现不会弄，上网搜，又去学springboot（目前还不知道redis项目必不必用）先是创建springboot项目。问题3：运行我的springboot项目，能跑但是redis相关的功能用不了，可能我还得先学学redis。

2024-07-07 09:51:02 237

原创今日复盘7.4

直接复制粘贴后，发现可以用指令，继续部署，但是断开连接后再连接又弄不了指令了（此时的原因是该指令是一次性的，断开连接就失效，而且此时我上面的错误并没有改正）然后我就头晕了开始看echo $PATH然后想找到一个正确的PATH 最后发现配置文件写错了，更正后重新启动问题解决。在部署jdk的时候，修改/etc/profile文件，文件改得有问题，但是当时没有发现。原文链接：https://blog.csdn.net/WF_crystal/article/details/135361983。

2024-07-04 17:10:43 252

m0_64950643的博客