- 博客(19)
- 收藏
- 关注
原创 今日复盘8.13
select is_frozen,xygj_device_count,app_type_count(字段) from INF3DAP.ldapd_smart_res_zhsq_development_d(表名) where p_day_id = 20240811 limit 4;配置后你执行下 INF3YTXGJ_ETL_TABLES_STORE_HDP(任务) ,再看下分布式主机上的存储是不是降低了。1.源端字段与接入表字段不一致,因为没有源端权限所以不知道到底是源端的问题还是介入表的问题。
2024-08-13 17:52:03 339
原创 一周总结8.2
mid.inc来源于inf.inc,inf.inc是只保留近三天的数据,其中有两个字段要注意一个是时间,另一个是op-type,这个类型包含三种第一个是I,新增 第二个是U,更新 第三个是D,删除。对于前一天有什么增量就填到该表中,然后拍照成mid.inc表,然后对mid.inc表进行排序(时间+主键)选择最新的数据(原因是可能有重复的数据),选取inc表中不含D的数据插入到mid表中,还有些没有变化的数据也要插入mid表中。增量拍照分为两个表,一个是mid库中的inc表,一个是目标表mid。
2024-08-02 18:02:57 402
原创 今日复盘8.1
感觉自己最近怠惰了,对学习没什么热情,一方面我的注意力转移到游戏中,另一方面对现在的学习不上心,每天要做什么都提不起力气,一般这种情况摆烂几天再看个鸡汤,然后痛定思痛又能热情几天学习。select * from 表 where group_type ='1'(这个要按照指标进行分区) and time_type='1' (这个按照时间年月日来分区)附属表的话先查询主表的时间然后join副表查询的是附表的数据。如何能从表中获取这一天的数据呢?echo 大致与print类似。[]两边都要留有空格。
2024-08-01 16:55:46 229
原创 今日复盘7.30
需要将以下excel表格中的内容弄成sql建表语句举例:reasonid string comment '事由类别ID',reasontype string comment '事由类别',maintenanceid string comment '维护方式',COMMENT 'MSS事由类别维度表'STORED AS代码如下:(基于。
2024-07-30 11:36:11 1416
原创 今日复盘7.29
mid.inc来源于inf.inc,inf.inc是只保留近三天的数据,其中有两个字段要注意一个是时间,另一个是op-type,这个类型包含三种第一个是I,新增 第二个是U,更新 第三个是D,删除。对于前一天有什么增量就填到该表中,然后拍照成mid.inc表,然后对mid.inc表进行排序(时间+主键)选择最新的数据(原因是可能有重复的数据),选取inc表中不含D的数据插入到mid表中,还有些没有变化的数据也要插入mid表中。增量拍照分为两个表,一个是mid库中的inc表,一个是目标表mid。
2024-07-29 17:03:34 105
原创 今日复盘7.25
这几天状态不对,但是该做的事还是做,今天下血本花了0.66买了三小时百度网盘会员,下了30g虚拟机,解压完花了100g,内存裂开了,然后配置一波sqlyog就开始学sqoop导入数据到hdfs。输这个命令的时候,发现hue不支持我的admin用户登录了,然后用的hue普通用户,添加了root的超级用户,结果登陆的hue用户注销不了,然后发现是字符的问题。重新登陆root用户就OK啦。
2024-07-26 09:44:35 152
原创 今日复盘7.24
还是很纳闷,这几天一直学理论还没有上手,就比较枯燥,去github搜数仓项目也全是大型的项目,没有练练手的项目,这该怎么办呢,数据分析多一点,其实感觉也还好,只是现在虚拟机还没没弄好就卡在这,实践不了,明天狠狠心搞个会员。上午感觉很累很迷茫,方方面面的影响让我不知所措,其实都是小事,但总是内耗。如果解决不了不如放下,潜下心来,做好该做的事情。发现黑马程序员的hive数仓项目和上硅谷的数仓项目两个使用的技术完全不一样(可能是离线和实时的区别。下午看了上硅谷的数仓项目,发现老师讲的很细很好。
2024-07-24 17:28:41 205
原创 今日复盘7.23
实际上,Spark 已经很好地融入了 Hadoop 生态圈,并成为其中的重要一员,它可以借助于 YARN 实现资源调度管理,借助于 HDFS 实现分布式存储。此外,Hadoop 可以使用廉价的、异构的机器来做分布式存储与计算,但是,Spark 对硬件的要求稍高一些,对内存与 CPU 有一定的要求。分区列表、分区函数、最佳位置,这三个属性其实说的就是数据集在哪,在哪计算更合适,如何分区;计算函数、依赖关系,这两个属性其实说的是数据集怎么来的。今天学习了HUE的基础知识,它是一种集成性的软件。
2024-07-23 17:35:01 309
原创 今日复盘7.22
项目有个业务流程,每个业务流程对应着一张表,里面的数据存放在mysql数据库中,通过apache sqoop导入到HIVE的ODS源数据层,然后是ETL的过程,对数据进行清洗或者转换,处理之后对数据进行分析,其结果基于sqoop导出到mysql中,然后通过FineBI实现图表展示功能。最近都全力冲击项目,虽然项目文件60多g。这咋弄呀,到时候看吧。
2024-07-23 09:24:45 153
原创 今日复盘7.19
回学校走校招,要准备面试笔试,进中小厂,实习一年,出来找女朋友考完研的城市定居2,3年,期间学习技术,管理,机器学习大模型啥的,最后再转定居城市。垂死病中惊坐起,不知不觉秋招来了,本以为有个实习就万事大吉,结果现在是找工作的时候,没办法了老铁,按照原计划,然后加加班,边实习边准备秋招吧。现在的目标是2个月内搞出hive数据仓库项目,学完spark,kafka,然后搞出hive+spark数据平台。Hbase是一种分布式存储的数据库,技术上来讲,它更像是分布式存储而不是分布式数据库。
2024-07-19 16:50:08 201
原创 今日复盘7.18
今天来活了,给表中的字段写业务口径和技术口径,不知道是不是打标,叫我理解代码逻辑,然后跟我讲了下整个模型的概述,我目前做的是模型借口层,主要是拍照或MID,然后是整合层,加入了简单的整合逻辑,然后是标签层,也叫中间层汇总层,负责将数据打标,(原来这个是打标)最后是报表层(应该是可视化)应用层。下午再学学爬虫,感觉可以学学ai大模型,热度在这里,等学完爬虫吧。今天爬虫学习了selenium自动化爬虫,找到浏览器驱动,先获得浏览器对象,然后访问网站,获得网站搜索的输入框和搜索按钮(记得改)
2024-07-18 17:57:29 155
原创 今日复盘7.17
许久没复盘了,原因是上周末吃完海鲜吃炒菜,然后喝了接近2两清香还是什么的茅台。长见识了,然后玩通宵麻将炸金花十点半,直接这一周废了 这两天没活,因为上面的权限还没申请下来,以后的工作是到数开平台每天建建宽表,最近几天呢公司内网更换浪费一天,然后做了一个小案例,先需求分析+加载数据,etl(写sql过滤数据),建临时表完成指标,最后可视化展现 ,然后今天写sql30题经典,下午写写爬虫。
2024-07-18 15:03:20 118
原创 今日复盘7.12
问题二:ROUND((case when B.REL_OVEROFFER_AMOUNT_AVG_3M>30 and D.PROD_INST_ID is null THEN C.ALL_REL_OFFER_AMOUNT_AVG_3M+30。上午和下午都在干活,给我这段代码是一个Perl脚本,用于数据处理和ETL(Extract, Transform, Load)任务。家人们看到这种真的晕,真的不知道怎么找。问题四:有无更方便的手段找到来源表。问题一:找不到与日期有关的字段。让我找到字段的来源表。
2024-07-12 17:31:40 421
原创 今日复盘7.11
参数接受的是一个列表(['`', "'"]),但在尝试创建一个正则表达式(使用 `re.compile(sep)`)时,Python 抛出了一个 `TypeError: unhashable type: 'list'` 错误。解决办法:暂时无,想过用sep=r" \s'|' "(空格'或者')但是就是不对(正则表达式不懂),搞了好久,能力不足只能从T开始分隔,再用sep=" ' "再分隔,就很奇怪这就可以弄出来,第一次不行。# 读取txt文件数据,假设txt文件每行是一条记录,每列之间由制表符分隔。
2024-07-11 16:56:58 1567
原创 今日复盘7.9
在大数据中可以用java,python等语言进行数据统计分析也可以用sql来数据统计,sql明显更好一些,其中map reduce只支持程序开发。hive是分布式计算工具,底层代码基于map reduce,主要功能是把sql语句翻译成map reduce程序运行。其中user这个是表,数据的文件会在哪里?文件中的分隔符是什么?我们需要将文件映射成一张表,这就是元数据管理,即数据位置,数据结构,对数据进行描述 进行记录。有了记录以后,我们还需要一个将sql转换成map reduce的功能,即sql解析器。
2024-07-09 17:48:10 1552
原创 今日复盘7.8
客户端向namenode发送写入请求,namenode允许后客户端与datanode对接并发送数据,datanode相互备份,传输完客户端对namenode报告,然后namenode开始写edits,sencondary namenode整理成fsimage。程序向resource manager申请资源,resource manager分配node manager们去调度他们负责的服务器,node manager在服务器中创建容器,提前构建一个多少g的容器,里面的资源供程序使用。
2024-07-08 17:48:07 213
原创 今日复盘7.7
当我们用的时候就全都聚在一块,但是这样如果一个文件丢失,整个文件都会用不了,所以在服务器中往往会存储多个文件副本。问题1:pycharm设置打不开,网上说resouce_ch.jar包的问题,我打开lib文件夹发现我没有,下载放进去后问题依旧(可能要重启),于是我干脆重新下了新版本,结果还是要重启。hdfs fsck path [ -files [ -blocks [ -locations]]] 检查该文件的状态,有几个块几个副本,输出每一个块的详情。我的是计算机服务中ssh连接禁用了,打开后就好了。
2024-07-08 09:02:55 365
原创 今日复盘7.5
删了重新下,没用还是这个,然后我去阿里云仓库找,发现有于是换版本下载,还是不行(怀疑是自动下的不行)最后开加速器上maven仓库找,发现...-start-parent这个依赖maven只有3.3.1,阿里云有3.5.6。找了一个redis项目准备在idea上跑跑 结果发现不会弄,上网搜,又去学springboot(目前还不知道redis项目必不必用)先是创建springboot项目。问题3:运行我的springboot项目,能跑但是redis相关的功能用不了,可能我还得先学学redis。
2024-07-07 09:51:02 237
原创 今日复盘7.4
直接复制粘贴后,发现可以用指令,继续部署,但是断开连接后再连接又弄不了指令了(此时的原因是该指令是一次性的,断开连接就失效,而且此时我上面的错误并没有改正)然后我就头晕了开始看echo $PATH然后想找到一个正确的PATH 最后发现配置文件写错了,更正后重新启动问题解决。在部署jdk的时候,修改/etc/profile文件,文件改得有问题,但是当时没有发现。原文链接:https://blog.csdn.net/WF_crystal/article/details/135361983。
2024-07-04 17:10:43 252
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人