原理
文章平均质量分 65
不加班程序员
小白一枚
展开
-
Hive数据锁问题处理
hive排查、处理锁问题原创 2024-06-20 14:02:41 · 472 阅读 · 0 评论 -
MySQL-删除重复数据
在实际应用中,遇到一个这样的问题,MySQL中存储的数据为资讯类数据,在页面展示时会出现多个平台的新闻报导相同的内容,导致页面会出现重复数据。因为数据是每天定期更新,所以最快捷有效的方式是在更新完数据后增加一个去重操作。写一个定时删除的脚本,每天定时执行,通过对数据中title进行聚合去重:将数据按title分组,取id最小的数据进行记录,然后将id不在该列表的数据删除。该错误大致意思为不能依据某字段值做判断再来更新某字段的值。多一次,就可以避免这个错误。的结果再通过一个中间表。解决方法:select。原创 2024-01-26 10:24:19 · 609 阅读 · 0 评论 -
数据仓库建模
在ER模型中抽象出了有实体、关系、属性三种类别,在现实世界中,每一个操作型事件,基本都是发生在实体之间的,伴随着这种操作事件的发生,会产生可度量的值,而这个过程就产生了一个事实表,存储了每一个可度量的事件。比如商品,单一主键:商品ID,属性包括产地、颜色、材质、尺寸、单价等, 但并非属性一定是文本,比如单价、尺寸,均为数值型描述性的,日常主要的维度抽象包括:时间维度表、地理区域维度表等。通过将数据按照多个维度进行切片和切块,可以支持复杂的查询和分析需求,如数据切片、钻取、滚动等操作。原创 2024-01-23 17:02:28 · 932 阅读 · 0 评论 -
redis中bitmap应用
redis中bitmap 适用场景原创 2024-01-05 11:10:32 · 902 阅读 · 1 评论 -
探索Elasticsearch内存应用的关键因素
elasticsearch,内存应用相关原创 2024-01-05 09:33:50 · 613 阅读 · 0 评论 -
sklearn之train_test_split()函数各参数含义
sklearn之train_test_split()函数各参数含义在机器学习中,我们通常将原始数据按照比例分割为“测试集”和“训练集”,从 sklearn.model_selection 中调用train_test_split 函数 简单用法如下:X_train,X_test, y_train, y_test =sklearn.model_selection.train_test_split(train_data,train_target,test_size=0.4, random_stat转载 2020-08-31 11:53:30 · 895 阅读 · 0 评论 -
Kafka架构总结以及常见的面试题总结
kafka名词说明分布式 高吞吐量 消息系统producer:生产者consumer:消费者broker:机器,节点controller:kafka服务器的主节点 负责管理元数据(zk存储一份)follower:kafka服务器的从节点 (同步元数据)topic:主题。类似于关系型数据库中的表partition:一个主题可以有多个分区replica:副本,为了保证数据安全,每个partition可以设置多个副本(leader replica和slave replica)原创 2020-06-26 16:56:58 · 604 阅读 · 1 评论 -
Storm入门原理
storm 入门原理介绍 1.hadoop有master与slave,Storm与之对应的节点是什么?2.Storm控制节点上面运行一个后台程序被称之为什么?3.Supervisor的作用是什么?4.Topology与Worker之间的关系是什么?5.Ni...转载 2018-07-26 16:55:34 · 325 阅读 · 0 评论