[大数据/AI]基础设施
分享大数据/AI需要的软硬件基础设施,例如标注工具、大数据平台、大规模检索工具等
Jamence
前大厂算法工程师,负责过超大规模分类、聚类、检索等任务
现在读博士,发表10+ CCF A/B论文
展开
-
【字节实习生模型训练代码注入】如何实现
最近,某知名高校硕士生在字节实习期间,因对团队资源分配感到不满,于六月底利用攻击代码破坏了团队的模型训练任务,造成较大损失。攻击手段包括,但不限于我们就来模拟一下攻击手段,只有了解如何攻击,才能知道如何防备。知己知彼百战百胜!原创 2024-10-28 21:54:41 · 150 阅读 · 0 评论 -
python pickle处理
如果你有自定义的类,可以通过实现getstate和setstate方法来控制其序列化和反序列化行为。# 返回对象的状态# 恢复对象的状态# 创建一个 Student 对象# 序列化对象# 反序列化对象。原创 2024-10-23 12:44:29 · 200 阅读 · 0 评论 -
python读写csv文件
读写CSV文件在Python中是一个常见的任务,可以使用内置的csv模块或第三方库如pandas来完成。原创 2024-10-18 15:24:00 · 202 阅读 · 0 评论 -
向量数据库Milvus部署及试用
Milvus 是一种高性能、高扩展性的向量数据库,可在从笔记本电脑到大型分布式系统等各种环境中高效运行。它既可以开源软件的形式提供,也可以云服务的形式提供。原创 2024-10-17 18:31:03 · 419 阅读 · 0 评论 -
开源标注工具
安装非常麻烦,github更新频率比较低,支持功能和doccano类似。安装简单,可尝试(github上共17.1k star,且一直在更新)支持CV、NLP、语音等各种既定任务,及支持自定义任务标注。实测下来,发现标注大量数据可能存在问题,系统可能不稳定。大家有啥好的标注工具,也可以一起分享一下呀。后端代码未开放,可能有数据泄露风险。8年前的老系统,不敢用。原创 2024-09-25 12:48:19 · 466 阅读 · 0 评论