ai语料采集
文章平均质量分 63
黄昏中起飞的猫头鹰
I know that i know nothing
展开
-
大模型专业术语语料如何采集!XPath高级技巧助力狩猎
在大模型语料的采集中,确保语料的高质量是至关重要的。因此,在使用爬虫获取数据时,我们需要灵活运用XPath基本知识,进行节点转换,准确提取有效信息,剔除广告和异常字符,同时将图片和视频链接转换为模型可识别的格式等操作。这确保了我们获取的数据是干净、有用的,为大模型训练提供保障。 这里分享了一个XPath节点用法的简单案例。原创 2023-12-18 20:52:32 · 467 阅读 · 0 评论 -
如何增加ai虚拟聊天伴侣趣味性——OpenCV识别大量真实聊天图片采集高质量语料
如何用OpenCV这个神奇的工具,轻轻松松地识别大量真实聊天图片。这个过程中,运用了一系列高级技巧,比如OpenCV怎么从PDF中读取好多分页图片、怎么样过滤水印、剔除掉那些奇怪的文字,还有怎么准确地认出聊天文本框和聊天角色。最有趣的是颜色的提取,这样的操作,让整个过程变得高效而且智能。 通过OpenCV这个魔法工具,我们成功实现了对大量聊天图片的自动化识别和处理。这可不仅仅是建了一个高质量的语料库,更是为AI虚拟角色的培训提供了可靠的基础。原创 2023-12-18 00:36:19 · 528 阅读 · 0 评论