《DataSpeed Weekly》| 速据新知周刊 第 1 期

"Data hides truth, code finds the future."

2025 年 2 月 10 日,🎉 欢迎来到本周的速据新知周刊! 春节假期结束,我们又回到了忙碌的工作中,在这里给大家拜个晚年,祝大家身体健康,工作顺利!

封面揭晓

哪吒票房第一
哪吒票房第一

《哪吒之魔童闹海》票房(含预售)突破 80 亿,大家都去看了吗?

🐋DeepSeek 横空出世

当《哪吒》刷新票房纪录时,DeepSeek 正以另一种方式震撼世界:斯坦福报告显示,这个引发全球 AI 界震动的大模型,其技术突破的热度已超越 ChatGPT 首发盛况,我们一起来看看发生了什么?

deepseek官网
deepseek官网

1 月,国内量化私募机构幻方发布自研大模型 DeepSeek-V3 和 DeepSeek-r1,其训练成本显著低于国际主流模型,且通过开源创新技术(如 MLA、FP8 训练)吸引了大量开发者,DAU 在 20 天内突破 2000 万,成为全球增速最快的 AI 应用。这一突破对算力基础设施投资预期形成短期冲击,美股硬件板块波动加剧,但长期看推动了 AI 应用场景的拓展。

然而,DeepSeek 的崛起也伴随争议。美国 OpenAI 称发现证据显示其使用 OpenAI 模型进行训练,涉嫌侵权;美国参议院部分政客甚至提议“使用 DeepSeek 判刑 20 年”,引发科技界反弹。不过人红是非多,DeepSeek 商标在美被抢注,一堆山寨钓鱼网站冒出来蹭热度,逼得官方亲自下场打假。

市场层面,DeepSeek 的“降本增效”逻辑冲击全球科技股,美股算力芯片板块承压,港股半导体和软件板块则逆势走强。其技术优势还被外媒视为中国《中国制造 2025》计划的成果之一,推动 AI 竞争从模型转向应用。

国内方面,连三大运营商都坐不住了,移动、电信、联通集体接入 DeepSeek,春节期间的 AI 客服都变得聪明了不少。华为昇腾、阿里云等各大云厂商也在加速接入。技术突破背后是 DeepSeek 对“成本-性能”曲线的重构,其采用的动态稀疏训练技术,可在同等算力下支持更大参数规模的模型训练。

截至今日,官网[1]的服务依旧因为全球的热烈关注而经常无效

服务器繁忙
服务器繁忙

想要试试自己搭建一个吗?

deepseek本地部署效果
deepseek本地部署效果

欢迎关注DataSpeed,这里提供了详细的教程。

官方整理了可以调用 deepseek api 的工具合集:deepseek-ai/awesome-deepseek-integration[2]

😎 行业动态与趋势

Apache Flink CDC 3.3.0 发布[3]

FlinkCDC用途
FlinkCDC用途

3.3.0 属于“查漏补缺”型更新,没有大架构变动,但优化了细节体验,尤其是 MySQL 和 Paimon 的稳定性提升,加上新连接器和性能优化,适合正在用 Flink CDC 的用户升级。如果想尝鲜 OceanBase 或 MaxCompute 同步,可以冲了! 注意:新版本最低支持 Flink 1.19+,彻底放弃 1.17 和 1.18 的老版本。

靠大数据杀熟,Metica 融资 6500 万[4]

metica
metica

这类技术核心在于实时处理玩家行为数据流,通过用户分群和预测算法动态调整付费策略——比如针对高活跃用户推送限定礼包,这确实比传统买量精准得多。不过文中提到“游戏内消费提升 3 倍”的数据,在工程实现上必然依赖强大的分布式计算框架和 AB 测试平台,但技术细节没展开有点可惜。 争议点也很明显,“大数据杀熟”的伦理红线始终存在,去年国内某电商平台就因动态定价被约谈。技术是把双刃剑,短期内确实会增加游戏内消费,长期来看恐怕会造成大量用户流失。

👾 工具与开源项目推荐

wewe-rss[5]

wewe-rss web
wewe-rss web

可以将公众号转换为 rss 源,基于微信读书。微信中的公众号文章推荐比较混乱,部署此服务,结合 rss 阅读器可以实现优雅的公众号阅读体验。

Follow[6]

Follow客户端
Follow客户端

去年 7 月推出的 rss 订阅神器,配合 rsshub 可以订阅几乎所有内容平台,包括一些不支持 rss 订阅的网站:b 站,抖音,公众号等,将你想看的内容“allinone”,体验了半年,感觉很不错,特别是 ai 总结和自动化,可玩性也很高,适合想要整洁的一体化的阅读体验的朋友。

EmojiAll[7]

EmojiAll官网
EmojiAll官网

一个可以用中文搜索 emoji 的网站,有很全面的分类和描述,可以直接复制到 md 中使用,可以让文章生动一点。本文的 emoji 均来自于此。

沉浸式翻译[8]

沉浸式翻译官网
沉浸式翻译官网

懂得都懂,浏览器必备插件,看外文文章很方便,可以接入 ai api,实现更加完美的翻译体验,我目前使用的 openai api,直接摆脱机翻的感觉。

🤓 教程与实战案例

minio 接入 hudi 的介绍[9]

作为开源领域的两大明星组件,Hudi 凭借其强大的增量数据处理与版本控制能力,与兼容 S3 协议的 Minio 存储形成完美技术组合。教程从环境配置切入,指导读者在 Minio 中创建专用存储桶作为数据湖基底,并通过 Spark 引擎实现 Hudi 表结构向 Minio 存储的优雅映射。重点演示了如何通过标准化数据写入流程,在保持 ACID 事务特性的同时,完成数据版本追溯与实时分析管道的构建。后续还有文章继续更新,感兴趣的关注一下。

如何确保仓库中的指标一致性[10]

在数据仓库中,保持指标的一致性是非常重要的。如果你没有正确管理这些指标,可能会导致混乱和错误的决策。这篇文章提供了一些实用的建议来确保你的指标一致性:

  1. 明确定义 :首先,你得确保每个人都清楚每个指标是什么意思。比如,“销售额”是指实际卖出的产品金额吗?还是包括了税费或其他费用?通过清晰的文档记录,避免因为理解不同而导致数据偏差。
  2. 统一来源 :尽量从一个地方获取数据。如果你的数据分散在多个数据库或表格中,可能会出现重复计算或者不一致的问题。集中管理你的数据源,能够减少这些风险。
  3. 好的数据建模 :选择合适的方式来设计你的数据仓库。无论是使用维度建模还是事实表,关键是让数据在存储和查询时是标准且统一的。这样,当你需要分析的时候,就能快速得到准确的结果。
  4. 利用工具和技术 :借助一些数据治理的工具和自动化流程,可以帮助你监控和校验指标的一致性。这些工具可以自动检测数据问题,提醒你需要处理的地方,从而减少人为错误。

📚️ 文摘

“如果你想要造一艘船,先不要急着收集木材,而是要激发人们对大海的渴望。” ——《小王子》

工作中发现确实是这样的,动机和热情比资源更重要。如果团队没有共同的愿景和目标,再多的资源也是浪费。

🔥 本周话题

一部分人觉得 AI 辅助编程很好用,又有一部分人觉得很难用。

你们在用 AI 辅助编程了吗?用的什么工具,cursor?还是 ide+插件? 可以在评论区留下你的看法 😸

cursor官网
cursor官网

😂 开心一下

开工

💻欢迎关注Wechat:DataSpeed

[1]

官网: https://chat.deepseek.com/

[2]

deepseek-ai/awesome-deepseek-integration: https://github.com/deepseek-ai/awesome-deepseek-integration?tab=readme-ov-file

[3]

Apache Flink CDC 3.3.0 发布: https://flink.apache.org/2025/01/21/apache-flink-cdc-3.3.0-release-announcement/

[4]

靠大数据杀熟,Metica 融资 6500 万: https://news.qq.com/rain/a/20250203A063GV00

[5]

wewe-rss: https://github.com/cooderl/wewe-rss

[6]

Follow: https://follow.is/

[7]

EmojiAll: https://www.emojiall.com/zh-hans

[8]

沉浸式翻译 : https://immersivetranslate.com/

[9]

minio 接入 hudi 的介绍: https://dataxplorer.medium.com/an-intro-to-hudi-with-minio-i-75536fe75b4c

[10]

如何确保仓库中的指标一致性: https://www.startdataengineering.com/post/metrics_sot/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CodePhage

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值