啊六六六-CSDN博客

原创原来你不会找资源，三个宝藏白嫖书籍网站，阅读改变生活(一)

原来你不会找资源，三个宝藏白嫖书籍网站，阅读改变生活(一)基本上都是完全免费‼️每一个都非常好用‼️让你相见恨晚‼️#实用网站 #学习网站 #免费学习资源网站 #ppt #壁纸 #小说

2023-11-16 17:18:21 393

原创 Hbase,Phoenix,hive,Redis 内存数据库,220905,,

3. 架构集成. Hbase => Phoenix(延迟低, OLTP, Transaction, 联机事务处理), Hive(延迟相对较高, OLAP, Analysis, 联机分析处理)名称空间, 列族, 压缩, 预分区. Rowkey设计. 代码实现.完整测试: 删除, Hbase表(不是truncate), Phoenix视图, Hive表, 数据源文件, 断点续传.2. 数据存储, Kafka => Hbase. 消费者, 读. 自定义rowkey, 把数据添加到Hbase.

2022-09-06 01:27:17 347 1

原创 Kafka&陌陌案例,220903,,

qq,,8点在家=> wifi, 8点30 5G, 出门, 10:00: wifi, 11:00 => 22:00 wifi, 5G=> 23:30: wifi。陌陌案例, 数据源 => flume => kafka => Hbase => Phoenix/Hive。3,消费逻辑过于复杂,(1优化代码,2增加主题分片数,增加消费者,)2.长度, 64KB, 不超过100字节, 建议: 20 ~ 50。GPS, 经纬度, 省份... 根据经纬度, 算省份.:行数直接跳,,,vim中。

2022-09-04 00:24:59 308

原创 HBase,JavaAPI操作 HBase,220827,

2. 练习Hbase的Shell. create, get, scan, count, list, describe, truncate, disable, drop。重点::status, list, count, describe, disable, drop, truncate。高级: status, list, count, describe, disable, drop, truncate。基础: create, put, get, scan。版本号是多,只删最新版本,delete,...

2022-08-27 23:53:00 628

原创 hdfs_mr,,java,,220823,,

NoSQL(Hbase, Phoenix, Kafka, Flume, 陌陌案例) Java版. Flink基础, Flink项目.实际开发中, 聚合工程的父工程的作用: 1. 管理所有子工程的jar包版本. 2.定义公共的依赖或者插件, 供子工程继承.多线程: 卖票, 线程同步, 同步方法, 同步代码块, 死锁, 生命周期, 进阶: 优先级, 加入线程, 守护线程.核心基础, 数组, 方法, if, for, 面向对象, 常用API, 集合, IO流.win+e,,快捷键打开此电脑文件,,

2022-08-24 14:06:11 410

原创线程安全,,Maven基本介绍,220822,,

新建( 新建1个线程对象, 小伙子, 刚来北京) => 就绪(start, 开始缴纳社保, 并交够5年)webapp 里边的内容, 除了 web-inf 里边的内容之外, 其他的内容都可以被浏览器访问.运行(抢CPU资源, 摇号) => 死亡(执行结束, 买到车了, 上牌成功)有骨架,JavaWeb, 无骨架JavaWeb(掌握, 理解)聚合工程: 父工程Maven, , 子工程 Maven。3. Maven的作用, 依赖, 插件, 生命周期.用技术,官网会说需要什么jar包,,

2022-08-23 01:35:57 106

原创 Day08_jdbc_thread,,220820,,

事务A读的时候读出了15条记录，事务B在事务A执行的过程中删除（增加）了1条，事务A再读的时候就变成了14（16）条，这种情况就叫做幻影读。一级封锁协议可以有效的防止丢失更新，但是不能防止脏读不可重复读的出现。x锁排他锁被加锁的对象只能被持有锁的事务读取和修改，其他事务无法在该对象上加其他锁，也不能读取和修改该对象。在一级封锁的基础上事务读数据的时候加s锁，直到事务结束释放。s锁共享锁被加锁的对象可以被持锁事务读取，但是不能被修改，其他事务也可以在上面再加s锁。每天作业,用两种以上的思路做题?

2022-08-21 12:09:33 994

原创反射_集合,,220817,,

Collection集合入门, add(), remove(), clear(), size(), contains(), isEmpty()typora中,*(星号)+空格,列表格式,,--------(一串减号)+回车分割线,,###+tab键几级标题,,typora中,*(星号)+空格,列表格式,,--------(一串减号)+回车分割线,,###+tab键几级标题,,栈: 先进后出, 后进先出. 栈顶, 栈底. 入栈, 压栈. 出栈, 弹栈.```java```插入语言代码,,...

2022-08-18 01:10:17 120

原创反射_集合,,220816，

3. 接口, 概述, 特点, 成员特点. 变量: public static final 方法: public abstract...1. 多态. 概述, 一象多用. 前提条件. 成员访问特点. 好处, 弊端, 应用场景.Hbase, Phoenix, Kafka, 案例: 陌陌案例.1子类对象调用,2匿名对象,3匿名内部类(重写)然后调用,,,源码有问题,改造,提交供应商,,源码提交者(改整个模块).,包装类, 日期. 异常, 内部类, 集合入门.static: 静态的意思, 共享. 类名....

2022-08-17 01:11:24 82

原创 API_异常，数组_方法_面向对象，220814，，

6. 继承, 子承父业, 公共的成员(public), 构造方法不能继承, private不能继承.有: 说明该类的成员基本都是非静态的, 需要通过对象名. 的方式调用.先输入重写方法名，提示回车？无: 说明该类的成员基本都是静态的, 可以通过类名. 的方式调用.接口中可以定义有方法体的方法了, 如果是静态方法, 则直接写.属性, 构造, getXxx(), setXxx(), 行为.2. 面向对象的相关概述. 属性, 行为, 类, 对象.23种, 创建型, 结构型, 行为型 5, 7, 11。..

2022-08-15 20:48:48 128

原创封装，继承，java，220813，，

Spark => Scala => 马丁奥德斯基, 他老师: 尼古拉斯沃斯(1984年图灵奖获得者) => 参与了JVM的研发.内存图, 封装, 构造方法, 继承, 多态, 抽象类, 接口, 综合案例.jQuery, VUE, BootStrap 前端框架.2 => 10(二进制) 0: 包含, 1: 不包含。同级不重名，，成员变量和成员方法同级，，快捷键: alter + insert。快捷键: alter + insert。快捷键: alter + insert。alt+shift+上下，，...

2022-08-13 22:16:51 176

原创 java基础语法，，220811,,

前面 return;是调用的方法不执行，还是main方法后续代码不执行？只是调用方法内后续不执行，main后续要执行，break退出一层，return完全退出。数组转成字符串后，还能用索引吗。return后剩余代码不执行，，类对象可以获得不同类型的值，，python可变参？case后还可以写什么呢？fori+回车，快捷键，，不加大括号只影响一行，，java数组大花括号，，...

2022-08-12 00:32:08 155

原创一站制造项目及Spark核心面试，220808，，，

3-Spark积极使用内存，窄依赖都在内存中完成、允许内存中缓存RDD，相比MR，大部分的中间结果都是在内存中直接传递的。Wordcount SQL,DSL,RDD算子代码，怎么写？Wordcount SQL,DSL,RDD算子代码，怎么写？） spark set开启本地模式属性，dg，日志下载，放在hdfs，historyserver下，映射，，产品表（100万），商品详情表名称（10万），举例子，设计个程序，spark资源管理？多看多练，规律sql题，，经验积累，，重新写代码，要么原有的上面修改，，.

2022-08-08 23:51:03 383

原创新零售项目及离线数仓核心面试，，220807，，

即席查询(Ad Hoc Queries)，是用户根据自己的需求，灵活的选择查询条件，系统能根据用户的选择生成对应的统计报表。通过输入记录数，普通的 task counter 如下，输入的记录数是 13 亿多:而 task=000000 的 counter 如下，其输入记录数是 230 多亿。mr流程，input分片，map，map端shuffle（分区，spill溢写，merge），reduce端shuffle（拉取，merge），reduce聚合，output，Avro常用于Kafka、Druid。...

2022-08-08 01:20:57 949

原创监控工具Prometheus及项目总结，220805，，

mysql导入中也存在特殊字符，1替换或删除，2orc，avro，面试自信点，讲错也是真的，，厚脸皮++，，星型，冗余度高，所有维度连接到事实表，好查询。谓词下推，去重降低成小表，map join，分层具体实现思路梳理清楚，，，（重点）提前把背景需求问题整理，然后背诵，，娃娃机、咖啡机、榨汁机、自动售货机。分桶，分成若干小表两两join，，提前把项目问题整理，然后背诵，，根据主题逆层来源描述清楚，，，代入实际项目场景举例，，，sql为什么不让使用teb键。电梯，智能家居，智能家电，...

2022-08-07 20:11:21 166

原创任务流调度工具AirFlow，，220804，，

自己梳理一个主题，st层到ods，，背背表和指标，，考虑工单主题不，，？？？新零售三个主题一个月做完，个人职责工单主题：每一层用到哪些表，有哪些指标、有哪些维度准备1,2个主题，，调度选的好，下班回家早，，--hiveconf1修改配置，2定义变量，自研或长期驻场，，，任务后期维护，看自动化发送邮件报错不，监控平台数据是否正常，，项目完成后一段时间后跳槽，，寻找更高工资，，，脚本和sql目录不要轻易改变或删除，，放本地或hdfs（回收站），，...

2022-08-05 00:37:42 153

原创 DWB主题事实及ST数据应用层构建，220803，，

case when，1可以放在select后，2可以放在子查询，然后select别名，left join，1真实创建的表，2子查询创建的临时表，，，join可以作为中间关联，连环得到需要的字段，，一个主题从ods到st层，所用到的表名及字段，，，thriftserver不会停，一致运行，，，抽取字段，关联表（有时需要多层关联），判断条件，主要检查容器hadoop，spark进程，，最近状态更新时间==昨天，以及状态=2，，获取字段独立join，便于理解，模块化，把标记“掌握”字样的表，敲两遍，，...

2022-08-04 00:30:31 171

原创 # DWD层及DIM层构建## ，220801 ，

查看hive中数据表，输入密码，还是一直弹出这个窗口，查看不了dwd里面的数据，查看hive中数据表，输入密码，还是一直弹出这个窗口，查看不了dwd里面的数据，avro数据类型只要string，bigint，没有注释，，sparkSQL从下往上看，stage，hive反着看，，自己写代码，不要复用代码，ods一套dwd一套，，简历只描述ods层（orc格式）自动化建表，，，查询没有问题，插入数据表就报这个错误，，查询没有问题，插入数据表就报这个错误，，实际操作，先抽取好表字段，再建表，，，...

2022-08-02 16:24:39 306

原创 # ODS及DWD层自动化构建##， 220731，

拼接SQL，（获取连接，表名），（拼接建表语句，），获取表的注释通过Oracle，通过表名对应存储格式，location中判断分层全量增量表表名前缀表名，数据类型，（if判断，timestamp--long，精度为0或1--bigint或decimal，string），pop(-1)删除最后一位，，建表，select，for每一行遍历各个列，获取到字段信息，表名，注释，抽取数据，，partition固定值抽取数据要少一个，，自动化建表，循环表名，拼接SQL，游标执行，dwd字段提取思路?...

2022-08-01 01:44:00 222

原创面向对象及工程环境构建，220729，

要么给java写，要么百度或其他途径直接抄模板，，github，，工作中这些代码，都需要自己写吗？3-提交SQL给服务端运行，获取返回的结果。可以不用，不能不会是吧，简历亮点，，2-提供交互界面写SQL，看结果。Java语句Statement。手动建表，项目周期一般6个月，，工作中每一层可能会有数据校验，，map预聚合跟排序有关，2次，Python游标cursor。concat是sql中语法，，spark3支持简写，，游标执行sql语句，，，建模工具可自动化建表，，公司不自动化，那咋搞？...

2022-07-30 02:04:27 219

原创数仓分层设计及数据同步问题，，220728，，，，

这个变量是LINUX系统使用的，用于表示上个命令执行过程中是否有错误，没有错误则为0，那$?就是取这个变量的值，亦即获取上一个命令的执行是否出错的标志，然后IF里和0做了比较。有时间看菜鸟shell语法？--outdir指定将生成Java文件和Schema文件存储的位置。维度退化目的在于减少维度表的个数，减少了关联的次数，来提高性能。location指定Hive表对应的HDFS地址。指定了Hive表对应HDFS目录就是指定的目录。运行101文件，休眠30s，执行一两个小时，，...

2022-07-29 01:14:20 380 1

原创 SparkSQL的UDF及分析案例，220726，，

sparkonhivespark写sql，处理hive数据，review，pymysql，面向对象，数仓分层？hive容器，hadoop容器中count聚合进过MR，DataX（数据同步工具，功能更强，百度，B站，看）关容器，再关机，先关spark，再关hive，，Metastore先启动，hs2后启动，，面试，新零售说全都用的presto，，虚拟机关机，，power-off，，md怎么直接跳到文件夹图片？工作中，多台机器，也用10000。相当于扣电池强制关机，，，，简历不写docker，，......

2022-07-27 11:53:08 119

原创 SparkSQL的UDF及分析案例，220725，

就是之前没见过直接启动hiveserver2的情况不一定会用Metastore，用于共享，，Metastore提供元数据接口，为外部计算引擎提供，，共享，，有配置metastore，先启动meta，再启动hive，，sum()over(partitionby省份）一定是先开启ThriftServer。mysql5和8，类名不一样，，，总共13位，以毫秒为单位，，加orderby，到当前行，，数据解密，定制化操作，，每xxx，需要分组，，，spark临时数仓，，...

2022-07-26 01:38:45 89

原创 SparkSQL核心使用，220724，

groupby后只有一条（多对一），partitionby只是分区（多对多），ctrl+alter+v快速生成这行代码返回值，，晚上这里重新看一下？sparkSQL的原因只有1个，SparkSQL设计目的就是为了实现类似Hive效果。明天等老师发preview，然后看？多个分区，join后会变成无序，，，列式存储parquet。不知道ROW代表人还是动物，，RDD考虑并行处理，分区，，，Row的属性就是Schema。sql中union会去重，JSON数据中嵌套JSON。修改了模式，不会报错，，...

2022-07-24 00:59:14 297

原创 SparkSQL设计及入门，220722，

也就是说我们的sparkshuffle是对MR的shuffle进行了优化,使得spark的shuffle只会实现我们指定的一些功能(分组排序分区中一部分),所以比MR高效很多?ETL数据清洗不合法数据过滤掉，RDD【Str】转换RDD【Tuple】SparkSession中会包含SparkContext对象。DataFrame分布式数据表数据+表结构。spark快的原因之一，shuffle过程中，，spark快的原因之一，都是基于磁盘，read读取离线的数据。...

2022-07-23 01:13:46 218

原创 Spark高级特性，220720，

Pyspark做了优化，数据量小，没有必要重新分，数据量的情况下，才会重新分。Scala中构建随机值作为Key，利用hash分区实现重新分配。Driver中的sum应该等于所有Task中副本的和。dict[Key]，无对应会报错，所以get，如果缓存丢失，依旧可以通过血缘机制来恢复缓存。RDD的所有依赖关系，Driver中都有。concat_ws（"分隔符"，列表）day06课程回顾视频看一遍？persist缓存，内存或磁盘，persist除非最后一步，alt+enter，导包，对象=数据+血缘依赖，...

2022-07-21 20:59:01 314

原创 SparkCore算子及案例，220719，

aggregate（3个参数初始值，分区内聚合逻辑函数，分区间聚合逻辑函数）经过shuffle，数据量大无法放在单台节点内存中处理，全局分组，环形缓冲溢写时候内存中对80%数据和索引做快排。每个MapTask内部会先对数据进行分组聚合。快捷键alt+enter,自动导包。fold（2个参数初始值，计算逻辑函数）reduce（1个参数计算逻辑函数）setmaster怎么设置yarn模式。调大分区，必须经过shuffle，2个分区，按分区进行排序，分组目的一定是为了做聚合。...

2022-07-20 00:56:10 100

原创 Day04_SparkCore常用算子，220717，

就是实质上程序运行有两种task,一种来计算分区个数,一个是对分区数据进行处理。Split分片/切片=Partition分区。一个分区=一个计算TaskExecutor。minpartition=2分区数一定>=2。100分区，1亿条数据，统计每个小时的数据量。1-先有Task，2-先有RDD的（数据）逻辑上的关系是一个分区对应一个Task。一个元素就是一个文件，一个文件中有多行。14个Task分配14=8+6。task读取，转换分区成RDD数据，......

2022-07-18 15:01:53 122

原创 SparkCore核心设计：RDD，220716，

注意PySpark中在本地模式使用wholeTextFiles有Bug，会导致单进程内存不足，集群环境可以正常使用。算子由Task来调用执行，Task运行Executor中，Executor运行在Worker节点上。2-Executor中打印的，我们是看不到的（18080，stdout，能看到）本地模式，18080能看到，8080看不到，会根据从节点的资源来启动，能启动多少就是多少。1-Driver中打印的，我们是能看到的。kill，status可以在监控界面，0-命令，1-选项，2-文件，3-参数。...

2022-07-17 00:38:02 95

原创 0714下午1，review，

斜杠不能写注释，括号里可以写注释，r代表绝对字符串，不进行转义，\\t，双斜杠代表不是转义，ctrl+鼠标左单击，加上hdfs头部声明，或加r代表绝对字符串，

2022-07-16 01:07:28 60

原创 220713，PySpark应用程序开发，

Metastore元数据管理服务，负责管理元数据，实现元数据共享，接收所有读写元数据请求。任何一个Spark程序都由两种进程组成Driver-驱动进程和Executor-计算进程。HiveServer2Hive服务端，负责接收SQL、解析SQL转换成Hadoop任务。zk中，Leader故障，Follower选举成为新的Leader。ZK的主节点故障，允许从其他从节点中选举一个新的主节点。SparkMaster8080集群监控，改端口，一定修改配置文件，配置文件中一定会有。......

2022-07-15 01:35:46 329

原创 day220713，PySpark入门及基础环境，

要求：每天的内容当天要消化理论听懂：不懂就问安装搭建：不重要，严格按照笔记或者上课所讲过程实施代码开发：代码看懂，运行成功，自己敲两遍如果安装有问题，及时向我反馈Spark Shuffle比MR Shuffle设计的更好归并：在内存中对磁盘数据的索引排序，合并数据达到基于磁盘的分布式排序HDFS：分布式文件系统，基于文件管理数据Hive：大数据数据仓库，基于表管理数据1-超级计算机：资源非常庞大2-分布式：廉价机器构建分布式资源分布式计算：拆分每个任务，每个任务处理不同数据数据价值会随着时间的流

2022-07-14 00:12:47 88

原创 Python数据分析库Pandas（二），220711，

concat中只要有1个为null吗，结果就为nullsplit分割成列表， count + group byNull==nanTrue或者False场景判断顺序是否一致，数据库表 / 文件10行tuple = 1, "a", True __initial__ 设计：为了避免修改导致性能特别差修改对象的属性 SQL：delete upsert插入：insert修改：updatereplace sql中 exist 1-DSL，2-SQL select from table so

2022-07-12 00:02:08 135

原创 220710，python数据分析库pandas，每天复习前面半小时，

每天复习前面半小时，离线工具：元数据一般都存储RDBMS-MySQL Hive、Oozie、Hue、CM实时工具：元数据一般都存储在ZK中 hive行列转换函数？？？？？？？？？？？1-功能、场景、使用初级工程师2-核心原理、优化、解决问题、深入开发中级工程师 3-阅读源码，处理原生bug问题，代码设计高级工程师数据集合：一个对象中能多个元素 set，无序, 去重SparkSQL模块借鉴了很多Pandas设计 data不要写成date separate:

2022-07-10 21:52:30 274

原创 day220708，面试笔记，

Znode有两种, 分别为临时节点和永久节点节点的类型在创建时即被确定, 并且不能改变1) 临时节点: 该节点的生命周期依赖于创建他们的会话. 一旦会话结束, 临时节点将被自动删除, 当然也可以手动删除. 临时节点不允许拥有子节点.2) 永久节点: 该节点的生命周期不依赖于会话, 并且只有在客户端显示执行删除操作的时候, 他们才能被删除. Znode还有一个序列化的特性, 如果创建的时候指定的话, 该Znode的名字后面会自动追加一个不断增加的序列号. 序列号对于此节点的父节点来说是唯一的, 这样便会记录每

2022-07-08 17:04:36 508

原创 day220706，review面试经验视频，就业指导课，

技术栈数据量大小，每日，项目多少人？会着重抽问个人指责，优化问题，问的多？？遇到不会的问题？我以前有接触过其他，上手还是比较快和容易的，手写sql题？shell脚本？hive调优？spark调优？数据表？窗口函数，排序函数？表生成函数？建议把flink和nosql学完？加班？行业中，加班是不可避免，努力提高自己技术能力，避免不必要的加班，为什么来这里？发展前景，家人朋友在这，这项目时间太长，有些忘记了？？必须掌握写的最新的项目？一面，二面，二十份才可能有二面？？多投简历？boss及时回复？？hive，spa

2022-07-07 00:54:12 162

原创 review第1遍，Day13_Git版本控制、项目总结【视频声音已经修复】，新零售整体项目，220630，md+本地视频,

细节1：sqoop命令要求在一行写完，如遇回车换行就自动提交，可以通过\表示未完待续；细节2：localhost代表什么？代表的是本机的意思，就是执行命令所在的机器。如果你在hadoop01上执行sqoop命令，localhost代表的就是hadoop01。暂时看到：：：：：：：：：：：.....................

2022-07-01 01:33:48 150

原创 review第1遍，git版本控制，项目总结，220629，md+本地视频,

知识点05：Git管理的组成结构知识点06：本地仓库构建几种方式step1：准备每个项目都可以基于Git构建版本库，每个项目都可以做版本管理先创建一个目录，再创建三个子目录【三个本地库】本地库只要构建成功就会创建一个隐藏目录.git知识点07：Git基本操作--添加、提交#添加一个或者多个文件到暂存区 git add [file1] [file2] ...#添加指定目录到暂存区，包括子目录 git add [dir]#添加当前目录下的所有文件到暂存区 git add .#如何嫌命令难记，也可以使用下

2022-06-30 01:33:37 172

原创 git版本控制，项目总结，220629，

面试沟通鬼才数据科学家劳动法， uv打开页面，100，（打开一次至少一人）pv访问人数,80，则异常，公司，先用再说 git init提交本地库才相当于保存了是吧倒数第二个个版本案底连同三代吧尽量不要高权限，剪切git，非git文件，只有提交（本地仓库）了才会纳入git管理中直接提交本地仓库，然后提交远程仓库，同步到远程仓库百度，第三方软件，自动上传，下载gitee，仓库，添加，提交，push，，克隆，先拉后推手动合并，nodepad++，组长

2022-06-29 20:30:18 98

原创数据库sql题，lc免费，

题目】现在有“课程表”，记录了学生选修课程的名称以及成绩。现在需要找出语文课中成绩第二高的学生成绩。如果不存在第二高成绩的学生，那么查询应返回 null。【解题思路】1.找出所有选修了“语文”课的学生成绩select *from 成绩表where 课程='语文';2.查找语文课程成绩的第二名考虑到成绩可能有一样的值，所以使用distinct 成绩进行成绩去重。思路1：使用子查询找出语文成绩查询最大的成绩记为a，然后再找出小于a的最大值就是课程成绩的第二高值。max(列名) 可以返回该列的最大

2022-06-29 01:34:38 276

空空如也

空空如也