- 博客(157)
- 收藏
- 关注
原创 AI大模型
收集数据->数据清洗(去重、null值处理等)->数据划分(训练、验证、参数调整等数据划分)->模型选择->模型训练(GPU加速等)->模型评估(测试数据集测试准确度、召回率等)->模型部署(flask转换为api、docker)
2023-11-22 19:36:00 374
原创 数据仓库一分钟
直接点讲,就是大部分(80%以上)的需求,都用DWS的表来支持就行,DWS支持不了的,就用DWM和DWD的表来支持,这些都支持不了的极少一部分数据需要从原始日志中捞取。在实际计算中,如果直接从DWD或者ODS计算出宽表的统计指标,会存在计算量太大并且维度太少的问题,因此一般的做法是,在DWM层先计算出多个小的中间表,然后再拼接成一张DWS的宽表。“面向主题的”数据运营层,也叫ODS层,是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,也就说传说中的 ETL 之后,装入本层。
2023-08-21 11:39:20 1053
原创 Hive一分钟
对于外部表,删除表格时,仅删除元数据(meta data)。因为会有多人操作数据仓库,可能会产生数据表误删除操作,为了数据安全性,通常会使用外部表。对于内部表,删除表格时,删除元数据(meta data)和存储数据,即表格,以及对应表格的数据文件。1.分区表是将大的表文件划分成多个小文件以利于查询,但是如果数据分布不均衡,也会影响查询效率。3.物理上,每个桶就是表和分区目录里的一个文件,一个作业产生桶和Reduce任务个数据相同。2.桶表可以对数据进行哈希取模,目的是让数据能够均匀的分布在表的各个文件中。
2023-07-03 11:39:25 484
原创 Atlas
Apache 开源 元数据产品支持从 HBase 、Hive、Sqoop、Storm、Kafka 中提取和管理元数据。运行原理Atlas 的原理其实并不难理解,主要是通过内部提供的脚本读取数仓中的数据库结构,生成数据模型,存储到 Atlas的 Hbase 中,同时通过 hook 的方式监听数仓中的数据变化,分析执行的 sql 语句,从而生成表与表,列与列的血缘关系依赖,在前台展示给用户查看。
2023-06-21 18:15:10 42
原创 Spark
高效性 基于内存 Spark 比 MapReduce 快100倍易用性 函数式编程 代码体积小通用性 用于批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)、机器学习(Spark MLlib)和图计算(GraphX兼容性 Spark可以读取多种数据源,如HDFS、HBase、MySQL基本概念。
2023-06-15 19:36:45 646
原创 hadoop、hive、hbase的关系
hadoop是hive和hbase的基础,hive依赖hadoop,而hbase仅依赖hadoop的hdfs模块。hive适用于离线数据的分析,操作的是通用格式的(如通用的日志文件)、被hadoop管理的数据文件,它支持类sql,比编写MapReduce的java代码来的更加方便,它的定位是数据仓库,存储和分析历史数据。hbase适用于实时计算,采用列式结构的nosql,操作的是自己生成的特殊格式的HFile、被hadoop管理的数据文件,它的定位是数据库,或者叫DBMS。
2023-06-03 13:53:43 314
原创 低代码平台
aims https://aisuda.bce.baidu.com/amis/zh-CN/docs/start/getting-started
2023-05-28 00:43:29 337
原创 可视化规则引擎
教程:https://www.bstek.com/resources/doc/3.x/2an-zhuang-yu-pei-zhi.html。源码:https://gitee.com/mirrors/URule。
2023-05-26 15:04:15 534
原创 UDP/TCP HTTP/HTTPS
7层网络协议TCP有连接数据正确性UDPping命令无连接程序简单不安全 丢包无序 效率高HTTP pipelining默认情况下http协议中每个传输层连接只能承载一个http请求和响应,然后结束HTTP管线化是将多个HTTP要求(request)整批提交的技术而在传送过程中不需先等待服务端的回应仅HTTP/1.1支持此技术(HTTP/1.0不支持)只有GET和HEAD请求可以进行管线化,而POST则有所限制浏览器默认不启动管线机制,因为对方(服务器)不一定支
2022-01-25 22:23:03 1742
原创 kafka 难点
参考文章[[Kafka常见面试题](https://blog.csdn.net/qq_28900249/article/details/90346599)[参考文章](https://www.cnblogs.com/juniorMa/articles/13936154.html)重要考点kafka 为什么那么快Cache Filesystem Cache PageCache缓存顺序写 由于现代的操作系统提供了预读和写技术,磁盘的顺序写大多数情况下比随机写内存还要快。Zero-c
2021-11-04 23:57:06 1233
原创 mq顺序消费
mq顺序消费解决方案单queue单consumer模式消息消费顺序状态(时间戳) 落库 消费逻辑ackrocketmq支持分区顺序消费
2021-10-10 13:10:46 244
原创 MySql事务
MySql事务参考文章MVCC可重复读没有彻底解决幻读高并发场景下快照读 是基于MVCC当前读是最新记录 会产生幻读 需要开启gap和next-lock 来部分解决MVCC(Multi-Version Concurrency Control多版本并发控制):隐藏字段DATA_TRX_ID 字段记录了数据的创建和删除时间,这个时间指的是对数据进行操作的事务的idDATA_ROLL_PTR 指向当前数据的undo log记录,回滚数据就是通过这个指针DELETE
2021-10-10 13:05:30 68
原创 log4j2的使用
log4j2配置分析Appender定义Appenders are responsible for delivering LogEvents to their destination种类FailoverAppender将尝试向队列中的Appender依次输出LogEvent,直到有一个成功为止作用 失败后的保全策略(例如kafka没有生产成功后落入文件)FlumeAppendertype="Avro"方式写入flume 相当于log4j充当flume的sourceAsynchApp
2021-09-23 18:28:19 274
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人