- 博客(201)
- 收藏
- 关注
原创 原来你不会找资源,三个宝藏白嫖书籍网站,阅读改变生活(一)
原来你不会找资源,三个宝藏白嫖书籍网站,阅读改变生活(一)基本上都是完全免费‼️每一个都非常好用‼️让你相见恨晚‼️#实用网站 #学习网站 #免费学习资源网站 #ppt #壁纸 #小说
2023-11-16 17:18:21 393
原创 Hbase,Phoenix,hive,Redis 内存数据库,220905,,
3. 架构集成. Hbase => Phoenix(延迟低, OLTP, Transaction, 联机事务处理), Hive(延迟相对较高, OLAP, Analysis, 联机分析处理)名称空间, 列族, 压缩, 预分区. Rowkey设计. 代码实现.完整测试: 删除, Hbase表(不是truncate), Phoenix视图, Hive表, 数据源文件, 断点续传.2. 数据存储, Kafka => Hbase. 消费者, 读. 自定义rowkey, 把数据添加到Hbase.
2022-09-06 01:27:17 347 1
原创 Kafka&陌陌案例,220903,,
qq,,8点在家=> wifi, 8点30 5G, 出门, 10:00: wifi, 11:00 => 22:00 wifi, 5G=> 23:30: wifi。陌陌案例, 数据源 => flume => kafka => Hbase => Phoenix/Hive。3,消费逻辑过于复杂,(1优化代码,2增加主题分片数,增加消费者,)2.长度, 64KB, 不超过100字节, 建议: 20 ~ 50。GPS, 经纬度, 省份... 根据经纬度, 算省份.:行数 直接跳,,,vim中。
2022-09-04 00:24:59 308
原创 HBase,JavaAPI操作 HBase,220827,
2. 练习Hbase的Shell. create, get, scan, count, list, describe, truncate, disable, drop。重点::status, list, count, describe, disable, drop, truncate。高级: status, list, count, describe, disable, drop, truncate。基础: create, put, get, scan。版本号是多,只删最新版本,delete,...
2022-08-27 23:53:00 628
原创 hdfs_mr,,java,,220823,,
NoSQL(Hbase, Phoenix, Kafka, Flume, 陌陌案例) Java版. Flink基础, Flink项目.实际开发中, 聚合工程的父工程的作用: 1. 管理所有子工程的jar包版本. 2.定义公共的依赖或者插件, 供子工程继承.多线程: 卖票, 线程同步, 同步方法, 同步代码块, 死锁, 生命周期, 进阶: 优先级, 加入线程, 守护线程.核心基础, 数组, 方法, if, for, 面向对象, 常用API, 集合, IO流.win+e,,快捷键打开此电脑文件,,
2022-08-24 14:06:11 410
原创 线程安全,,Maven基本介绍,220822,,
新建( 新建1个线程对象, 小伙子, 刚来北京) => 就绪(start, 开始缴纳社保, 并交够5年)webapp 里边的内容, 除了 web-inf 里边的内容之外, 其他的内容都可以被浏览器访问.运行(抢CPU资源, 摇号) => 死亡(执行结束, 买到车了, 上牌成功)有骨架,JavaWeb, 无骨架JavaWeb(掌握, 理解)聚合工程: 父工程Maven, , 子工程 Maven。3. Maven的作用, 依赖, 插件, 生命周期.用技术,官网会说需要什么jar包,,
2022-08-23 01:35:57 106
原创 Day08_jdbc_thread,,220820,,
事务A读的时候读出了15条记录,事务B在事务A执行的过程中删除(增加)了1条,事务A再读的时候就变成了14(16)条,这种情况就叫做幻影读。一级封锁协议可以有效的防止丢失更新,但是不能防止脏读不可重复读的出现。x锁 排他锁 被加锁的对象只能被持有锁的事务读取和修改,其他事务无法在该对象上加其他锁,也不能读取和修改该对象。在一级封锁的基础上事务读数据的时候加s锁,直到事务结束释放。s锁 共享锁 被加锁的对象可以被持锁事务读取,但是不能被修改,其他事务也可以在上面再加s锁。每天作业,用两种以上的思路做题?
2022-08-21 12:09:33 994
原创 反射_集合,,220817,,
Collection集合入门, add(), remove(), clear(), size(), contains(), isEmpty()typora中,*(星号)+空格,列表格式,,--------(一串减号)+回车分割线,,###+tab键 几级标题,,typora中,*(星号)+空格,列表格式,,--------(一串减号)+回车分割线,,###+tab键 几级标题,,栈: 先进后出, 后进先出. 栈顶, 栈底. 入栈, 压栈. 出栈, 弹栈.```java```插入语言代码,,...
2022-08-18 01:10:17 120
原创 反射_集合,,220816,
3. 接口, 概述, 特点, 成员特点. 变量: public static final 方法: public abstract...1. 多态. 概述, 一象多用. 前提条件. 成员访问特点. 好处, 弊端, 应用场景.Hbase, Phoenix, Kafka, 案例: 陌陌案例.1子类对象调用,2匿名对象,3匿名内部类(重写)然后调用,,,源码有问题,改造,提交供应商,,源码提交者(改整个模块).,包装类, 日期. 异常, 内部类, 集合入门.static: 静态的意思, 共享. 类名....
2022-08-17 01:11:24 82
原创 API_异常,数组_方法_面向对象,220814,,
6. 继承, 子承父业, 公共的成员(public), 构造方法不能继承, private不能继承.有: 说明该类的成员基本都是 非静态的, 需要通过 对象名. 的方式调用.先输入重写方法名,提示回车?无: 说明该类的成员基本都是 静态的, 可以通过 类名. 的方式调用.接口中可以定义有方法体的方法了, 如果是静态方法, 则直接写.属性, 构造, getXxx(), setXxx(), 行为.2. 面向对象的相关概述. 属性, 行为, 类, 对象.23种, 创建型, 结构型, 行为型 5, 7, 11。..
2022-08-15 20:48:48 128
原创 封装,继承,java,220813,,
Spark => Scala => 马丁奥德斯基, 他老师: 尼古拉斯沃斯(1984年图灵奖获得者) => 参与了JVM的研发.内存图, 封装, 构造方法, 继承, 多态, 抽象类, 接口, 综合案例.jQuery, VUE, BootStrap 前端框架.2 => 10(二进制) 0: 包含, 1: 不包含。同级不重名,,成员变量和成员方法同级,,快捷键: alter + insert。快捷键: alter + insert。快捷键: alter + insert。alt+shift+上下,,...
2022-08-13 22:16:51 176
原创 java基础语法,,220811,,
前面 return;是调用的方法不执行,还是main方法后续代码不执行?只是调用方法内后续不执行,main后续要执行,break退出一层,return完全退出。数组转成字符串后,还能用索引吗。return后剩余代码不执行,,类对象可以获得不同类型的值,,python可变参?case后还可以写什么呢?fori+回车,快捷键,,不加大括号只影响一行,,java数组大花括号,,...
2022-08-12 00:32:08 155
原创 一站制造项目及Spark核心面试 ,220808,,,
3-Spark积极使用内存,窄依赖都在内存中完成、允许内存中缓存RDD,相比MR,大部分的中间结果都是在内存中直接传递的。Wordcount SQL,DSL,RDD算子代码,怎么写?Wordcount SQL,DSL,RDD算子代码,怎么写?) spark set开启本地模式属性,dg,日志下载,放在hdfs,historyserver下,映射,,产品表(100万),商品详情表名称(10万),举例子,设计个程序,spark资源管理?多看多练,规律sql题,,经验积累,,重新写代码,要么原有的上面修改,,.
2022-08-08 23:51:03 383
原创 新零售项目及离线数仓核心面试,,220807,,
即席查询(Ad Hoc Queries),是用户根据自己的需求,灵活的选择查询条件,系统能根据用户的选择生成对应的统计报表。通过输入记录数,普通的 task counter 如下,输入的记录数是 13 亿多:而 task=000000 的 counter 如下,其输入记录数是 230 多亿。mr流程,input分片,map,map端shuffle(分区,spill溢写,merge),reduce端shuffle(拉取,merge),reduce聚合,output,Avro常用于Kafka、Druid。...
2022-08-08 01:20:57 949
原创 监控工具Prometheus及项目总结,220805,,
mysql导入中也存在特殊字符,1替换或删除,2orc,avro,面试自信点,讲错也是真的,,厚脸皮++,,星型,冗余度高,所有维度连接到事实表,好查询。谓词下推,去重降低成小表,map join,分层具体实现思路梳理清楚,,,(重点)提前把背景需求问题整理,然后背诵,,娃娃机、咖啡机、榨汁机、自动售货机。分桶,分成若干小表两两join,,提前把项目问题整理,然后背诵,,根据主题逆层来源描述清楚,,,代入实际项目场景举例,,,sql为什么不让使用teb键。电梯,智能家居,智能家电,...
2022-08-07 20:11:21 166
原创 任务流调度工具AirFlow,,220804,,
自己梳理一个主题,st层到ods,,背背表和指标,,考虑工单主题不,,???新零售三个主题一个月做完,个人职责 工单主题:每一层用到哪些表,有哪些指标、有哪些维度准备1,2个主题,,调度选的好,下班回家早,,--hiveconf1修改配置,2定义变量,自研或长期驻场,,,任务后期维护,看自动化发送邮件报错不,监控平台数据是否正常,,项目完成后一段时间后跳槽,,寻找更高工资,,,脚本和sql目录不要轻易改变或删除,,放本地或hdfs(回收站),,...
2022-08-05 00:37:42 153
原创 DWB主题事实及ST数据应用层构建,220803,,
case when,1可以放在select后,2可以放在子查询,然后select别名,left join,1真实创建的表,2子查询创建的临时表,,,join可以作为中间关联,连环得到需要的字段,,一个主题从ods到st层,所用到的表名及字段,,,thriftserver不会停,一致运行,,,抽取字段,关联表(有时需要多层关联),判断条件,主要检查容器hadoop,spark进程,,最近状态更新时间==昨天 ,以及状态=2,,获取字段独立join,便于理解,模块化,把标记“掌握”字样的表,敲两遍,,...
2022-08-04 00:30:31 171
原创 # DWD层及DIM层构建## ,220801 ,
查看hive中数据表,输入密码,还是一直弹出这个窗口,查看不了dwd里面的数据,查看hive中数据表,输入密码,还是一直弹出这个窗口,查看不了dwd里面的数据,avro数据类型只要string,bigint,没有注释,,sparkSQL从下往上看,stage,hive反着看,,自己写代码,不要复用代码,ods一套dwd一套,,简历只描述ods层(orc格式)自动化建表,,,查询没有问题,插入数据表就报这个错误,,查询没有问题,插入数据表就报这个错误,,实际操作,先抽取好表字段,再建表,,,...
2022-08-02 16:24:39 306
原创 # ODS及DWD层自动化构建##, 220731,
拼接SQL,(获取连接,表名),(拼接建表语句,),获取表的注释通过Oracle,通过表名对应存储格式,location中判断分层全量增量表表名前缀表名,数据类型,(if判断,timestamp--long,精度为0或1--bigint或decimal,string),pop(-1)删除最后一位,,建表,select,for每一行遍历各个列,获取到字段信息,表名,注释,抽取数据,,partition固定值抽取数据要少一个,,自动化建表,循环表名,拼接SQL,游标执行,dwd字段提取思路?...
2022-08-01 01:44:00 222
原创 面向对象及工程环境构建,220729,
要么给java写,要么百度或其他途径直接抄模板,,github,,工作中这些代码,都需要自己写吗?3-提交SQL给服务端运行,获取返回的结果。可以不用,不能不会是吧,简历亮点,,2-提供交互界面写SQL,看结果。Java语句Statement。手动建表,项目周期一般6个月,,工作中每一层可能会有数据校验,,map预聚合跟排序有关,2次,Python游标cursor。concat是sql中语法,,spark3支持简写,,游标执行sql语句,,,建模工具可自动化建表,,公司不自动化,那咋搞?...
2022-07-30 02:04:27 219
原创 数仓分层设计及数据同步问题,,220728,,,,
这个变量是LINUX系统使用的,用于表示上个命令执行过程中是否有错误,没有错误则为0,那$?就是取这个变量的值,亦即获取上一个命令的执行是否出错的标志,然后IF里和0做了比较。有时间看菜鸟shell语法?--outdir指定将生成Java文件和Schema文件存储的位置。维度退化目的在于减少维度表的个数,减少了关联的次数,来提高性能。location指定Hive表对应的HDFS地址。指定了Hive表对应HDFS目录就是指定的目录。运行101文件,休眠30s,执行一两个小时,,...
2022-07-29 01:14:20 380 1
原创 SparkSQL的UDF及分析案例,220726,,
sparkonhivespark写sql,处理hive数据,review,pymysql,面向对象,数仓分层?hive容器,hadoop容器中count聚合进过MR,DataX(数据同步工具,功能更强,百度,B站,看)关容器,再关机,先关spark,再关hive,,Metastore先启动,hs2后启动,,面试,新零售说全都用的presto,,虚拟机关机,,power-off,,md怎么直接跳到文件夹图片?工作中,多台机器,也用10000。相当于扣电池强制关机,,,,简历不写docker,,......
2022-07-27 11:53:08 119
原创 SparkSQL的UDF及分析案例,220725,
就是之前没见过直接启动hiveserver2的情况不一定会用Metastore,用于共享,,Metastore提供元数据接口,为外部计算引擎提供,,共享,,有配置metastore,先启动meta,再启动hive,,sum()over(partitionby省份)一定是先开启ThriftServer。mysql5和8,类名不一样,,,总共13位,以毫秒为单位,,加orderby,到当前行,,数据解密,定制化操作,,每xxx,需要分组,,,spark临时数仓,,...
2022-07-26 01:38:45 89
原创 SparkSQL核心使用,220724,
groupby后只有一条(多对一),partitionby只是分区(多对多),ctrl+alter+v快速生成这行代码返回值,,晚上这里重新看一下?sparkSQL的原因只有1个,SparkSQL设计目的就是为了实现类似Hive效果。明天等老师发preview,然后看?多个分区,join后会变成无序,,,列式存储parquet。不知道ROW代表人还是动物,,RDD考虑并行处理,分区,,,Row的属性就是Schema。sql中union会去重,JSON数据中嵌套JSON。修改了模式,不会报错,,...
2022-07-24 00:59:14 297
原创 SparkSQL设计及入门,220722,
也就是说我们的sparkshuffle是对MR的shuffle进行了优化,使得spark的shuffle只会实现我们指定的一些功能(分组排序分区中一部分),所以比MR高效很多?ETL数据清洗不合法数据过滤掉,RDD【Str】转换RDD【Tuple】SparkSession中会包含SparkContext对象。DataFrame分布式数据表数据+表结构。spark快的原因之一,shuffle过程中,,spark快的原因之一,都是基于磁盘,read读取离线的数据。...
2022-07-23 01:13:46 218
原创 Spark高级特性,220720,
Pyspark做了优化,数据量小,没有必要重新分,数据量的情况下,才会重新分。Scala中构建随机值作为Key,利用hash分区实现重新分配。Driver中的sum应该等于所有Task中副本的和。dict[Key],无对应会报错,所以get,如果缓存丢失,依旧可以通过血缘机制来恢复缓存。RDD的所有依赖关系,Driver中都有。concat_ws("分隔符",列表)day06课程回顾视频看一遍?persist缓存,内存或磁盘,persist除非最后一步,alt+enter,导包,对象=数据+血缘依赖,...
2022-07-21 20:59:01 314
原创 SparkCore算子及案例,220719,
aggregate(3个参数初始值,分区内聚合逻辑函数,分区间聚合逻辑函数)经过shuffle,数据量大无法放在单台节点内存中处理,全局分组,环形缓冲溢写时候内存中对80%数据和索引做快排。每个MapTask内部会先对数据进行分组聚合。快捷键alt+enter,自动导包。fold(2个参数初始值,计算逻辑函数)reduce(1个参数计算逻辑函数)setmaster怎么设置yarn模式。调大分区,必须经过shuffle,2个分区,按分区进行排序,分组目的一定是为了做聚合。...
2022-07-20 00:56:10 100
原创 Day04_SparkCore常用算子,220717,
就是实质上程序运行有两种task,一种来计算分区个数,一个是对分区数据进行处理。Split分片/切片=Partition分区。一个分区=一个计算TaskExecutor。minpartition=2分区数一定>=2。100分区,1亿条数据,统计每个小时的数据量。1-先有Task,2-先有RDD的(数据)逻辑上的关系是一个分区对应一个Task。一个元素就是一个文件,一个文件中有多行。14个Task分配14=8+6。task读取,转换分区成RDD数据,......
2022-07-18 15:01:53 122
原创 SparkCore核心设计:RDD,220716,
注意PySpark中在本地模式使用wholeTextFiles有Bug,会导致单进程内存不足,集群环境可以正常使用。算子由Task来调用执行,Task运行Executor中,Executor运行在Worker节点上。2-Executor中打印的,我们是看不到的(18080,stdout,能看到)本地模式,18080能看到,8080看不到,会根据从节点的资源来启动,能启动多少就是多少。1-Driver中打印的,我们是能看到的。kill,status可以在监控界面,0-命令,1-选项,2-文件,3-参数。...
2022-07-17 00:38:02 95
原创 0714下午1,review,
斜杠不能写注释,括号里可以写注释,r代表绝对字符串,不进行转义,\\t,双斜杠代表不是转义,ctrl+鼠标左单击,加上hdfs头部声明,或加r代表绝对字符串,
2022-07-16 01:07:28 60
原创 220713,PySpark应用程序开发,
Metastore元数据管理服务,负责管理元数据,实现元数据共享,接收所有读写元数据请求。任何一个Spark程序都由两种进程组成Driver-驱动进程和Executor-计算进程。HiveServer2Hive服务端,负责接收SQL、解析SQL转换成Hadoop任务。zk中,Leader故障,Follower选举成为新的Leader。ZK的主节点故障,允许从其他从节点中选举一个新的主节点。SparkMaster8080集群监控,改端口,一定修改配置文件,配置文件中一定会有。......
2022-07-15 01:35:46 329
原创 day220713,PySpark入门及基础环境,
要求:每天的内容当天要消化理论听懂:不懂就问安装搭建:不重要,严格按照笔记或者上课所讲过程实施代码开发:代码看懂,运行成功,自己敲两遍如果安装有问题,及时向我反馈Spark Shuffle比MR Shuffle设计的更好 归并:在内存中对磁盘数据的索引排序,合并数据达到基于磁盘的分布式排序HDFS:分布式文件系统,基于文件管理数据Hive:大数据数据仓库,基于表管理数据1-超级计算机:资源非常庞大2-分布式:廉价机器构建分布式资源 分布式计算:拆分每个任务,每个任务处理不同数据 数据价值会随着时间的流
2022-07-14 00:12:47 88
原创 Python数据分析库Pandas(二),220711,
concat中只要有1个为null吗,结果就为nullsplit分割成列表, count + group byNull==nanTrue或者False场景 判断 顺序是否一致,数据库表 / 文件10行tuple = 1, "a", True __initial__ 设计:为了避免修改导致性能特别差 修改对象的属性 SQL:delete upsert插入:insert修改:updatereplace sql中 exist 1-DSL,2-SQL select from table so
2022-07-12 00:02:08 135
原创 220710,python数据分析库pandas,每天复习前面半小时,
每天复习前面半小时, 离线工具:元数据一般都存储RDBMS-MySQL Hive、Oozie、Hue、CM实时工具:元数据一般都存储在ZK中 hive行列转换函数???????????1-功能、场景、使用 初级工程师2-核心原理、优化、解决问题、深入开发中级工程师 3-阅读源码,处理原生bug问题,代码设计高级工程师 数据集合:一个对象中能多个元素 set,无序, 去重SparkSQL模块借鉴了很多Pandas设计 data不要写成date separate:
2022-07-10 21:52:30 274
原创 day220708,面试笔记,
Znode有两种, 分别为临时节点和永久节点节点的类型在创建时即被确定, 并且不能改变1) 临时节点: 该节点的生命周期依赖于创建他们的会话. 一旦会话结束, 临时节点将被自动删除, 当然也可以手动删除. 临时节点不允许拥有子节点.2) 永久节点: 该节点的生命周期不依赖于会话, 并且只有在客户端显示执行删除操作的时候, 他们才能被删除. Znode还有一个序列化的特性, 如果创建的时候指定的话, 该Znode的名字后面会自动追加一个不断增加的序列号. 序列号对于此节点的父节点来说是唯一的, 这样便会记录每
2022-07-08 17:04:36 508
原创 day220706,review面试经验视频,就业指导课,
技术栈数据量大小,每日,项目多少人?会着重抽问个人指责,优化问题,问的多??遇到不会的问题?我以前有接触过其他,上手还是比较快和容易的,手写sql题?shell脚本?hive调优?spark调优?数据表?窗口函数,排序函数?表生成函数?建议把flink和nosql学完?加班?行业中,加班是不可避免,努力提高自己技术能力,避免不必要的加班,为什么来这里?发展前景,家人朋友在这,这项目时间太长,有些忘记了??必须掌握写的最新的项目?一面,二面,二十份才可能有二面??多投简历?boss及时回复??hive,spa
2022-07-07 00:54:12 162
原创 review第1遍,Day13_Git版本控制、项目总结【视频声音已经修复】,新零售整体项目,220630,md+本地视频,
细节1:sqoop命令要求在一行写完,如遇回车换行就自动提交,可以通过\表示未完待续;细节2:localhost代表什么? 代表的是本机的意思,就是执行命令所在的机器。如果你在hadoop01上执行sqoop命令,localhost代表的就是hadoop01。 暂时看到:::::::::::.....................
2022-07-01 01:33:48 150
原创 review第1遍,git版本控制,项目总结,220629,md+本地视频,
知识点05:Git管理的组成结构知识点06:本地仓库构建几种方式step1:准备每个项目都可以基于Git构建版本库,每个项目都可以做版本管理先创建一个目录,再创建三个子目录【三个本地库】本地库只要构建成功就会创建一个 隐藏目录.git知识点07:Git基本操作--添加、提交#添加一个或者多个文件到暂存区 git add [file1] [file2] ...#添加指定目录到暂存区,包括子目录 git add [dir]#添加当前目录下的所有文件到暂存区 git add .#如何嫌命令难记,也可以使用下
2022-06-30 01:33:37 172
原创 git版本控制,项目总结,220629,
面试沟通鬼才数据科学家劳动法, uv打开页面,100,(打开一次至少一人)pv访问人数,80,则异常,公司,先用再说 git init提交本地库才相当于保存了是吧 倒数第二个个版本 案底连同三代吧 尽量不要高权限, 剪切git,非git文件,只有提交(本地仓库)了 才会纳入git管理中 直接提交本地仓库,然后提交远程仓库,同步到远程仓库 百度, 第三方软件,自动上传,下载gitee,仓库,添加,提交,push,,克隆, 先拉后推 手动合并,nodepad++,组长
2022-06-29 20:30:18 98
原创 数据库sql题,lc免费,
题目】现在有“课程表”,记录了学生选修课程的名称以及成绩。现在需要找出语文课中成绩第二高的学生成绩。如果不存在第二高成绩的学生,那么查询应返回 null。【解题思路】1.找出所有选修了“语文”课的学生成绩select *from 成绩表where 课程='语文';2.查找语文课程成绩的第二名考虑到成绩可能有一样的值,所以使用distinct 成绩进行成绩去重。思路1:使用子查询找出语文成绩查询最大的成绩记为a,然后再找出小于a的最大值就是课程成绩的第二高值。max(列名) 可以返回该列的最大
2022-06-29 01:34:38 276
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人