- 博客(5)
- 资源 (1)
- 收藏
- 关注
原创 转型AI的学习笔记 RAG - 数据清洗
2、企业级可以采用第一点的程序处理+本地模型进行处理。(本地模型,让敏感数据不上云)1、demo可以通过Java / python 中的正则表达进行处理。消除噪音(什么是噪音:页眉页脚之类的,非文本信息内容)OCR 识别图片内文字,转为文本加入清洗后的文档中。脱敏(内部文档中的例如电话号码、地址、银行账号等)为什么要清洗,避免RAG原始数据混乱,导致垃圾存入然后垃圾输出。最好是保存为MD,它是对AI友好的格式。今天在RAG的整个工程中,第一步:清洗数据。清洗的数据最后是怎样的呢?清洗数据主要清洗什么呢?
2026-04-10 11:11:59
37
原创 Java开发环境搭建
对Java开发环境下载、安装、配置及环境检验的整个过程的描述。主要用于新手,也同时为老猿们做做备忘,以免因工作繁忙,而忘了这些细节。
2017-07-18 11:50:23
302
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅