AI
文章平均质量分 87
Python知识大全
这个作者很懒,什么都没留下…
展开
-
浅谈 Spark 在大数据开发中的一些最佳实践
而考虑到这个 join 操作本身所需要的计算时间并不多,如果从时间性能的角度考虑,比如你的ETL任务中用到了多个系统的数据,对于用户ID,系统A里面叫user_id,系统B里面叫u_id,系统C里面叫mapped_id,当经过我们数据清洗流程后我们应该将这些字段统一成同个概念,比如USER_ID。这里我们可以借鉴一个类似delta lake的upsert方案「1」:取出历史数据,按照唯一键将需要upsert的数据挖去,再和待添加的数据做union,可以实现更新有唯一键的表的功能。原创 2022-10-12 14:09:21 · 1111 阅读 · 0 评论 -
大数据开发:Kafka日志结构
在实际存储时一条消息总长度还包括12字节额外的开销,其中8字节长度记录消息的偏移量,消息的偏移量是相对该分区下第一个数据文件的基准偏移量而言,用来确定消息在分区下的逻辑位置,同一个分区下的消息偏移量按序递增,另外4字节表示消息总长度。而Kafka在数据生产和消费上,日志是主要的场景。时间戳索引文件与数据文件同名,以.timeindex后缀,该索引文件包括一个8字节长度的时间戳字段和一个4字节的偏移量字段,其中时间戳记录的是该日志段目前为止最大时间戳,偏移量则记录的是插入新的索引条目时,当前消息的偏移量。原创 2022-10-12 14:06:31 · 126 阅读 · 0 评论 -
TensorFlow Lite 设备端训练
设备端训练的一些低级功能(例如,存储模型参数的变量)仍处于实验阶段,而其他(例如,权重序列化)目前依赖于 TF Select 运算符,因此您需要在转换过程中设置这些标志。要使用 TensorFlow Lite 构建应用,您可以利用 TensorFlow Hub 中的现成模型,或者使用转换器将现有的 TensorFlow 模型转换为 TensorFlow Lite 模型。TensorFlow Lite 模型应当同时支持模型推理和模型训练,训练通常涉及将模型的权重保存到文件系统,并从文件系统中恢复权重。原创 2022-10-12 14:01:28 · 1895 阅读 · 2 评论