• 博客(203)
  • 收藏
  • 关注

原创 开源Embedding模型,有效提升中文语义理解与召回

此前,我们已经简单介绍了TextIn团队开发的开源acge_text_embedding模型及其下载和使用方法。本篇将展开讨论Embedding模型中使用的技术框架。

2024-10-30 10:51:40 1342 22

原创 合合信息发布智能文档处理“百宝箱”,助力文档应用开发

百宝箱”覆盖文档处理流程多节点,支持批量、高效、准确解析多种版式的文档材料,解决文档解析精度低、解析效果评估难和大模型幻觉等问题,助力技术人员实现个性化、高效率的文档类应用开发工作。未来,合合信息智能文档处理“百宝箱”将始终追求更高的效率与准确率,从文档解析到效果测评,为知识库产品开发提供有力支持。“百宝箱”中的“文档解析测评工具”从表格、段落、标题、阅读顺序、公式等多维度,为文档解析工具筛选提供定量测评依据及服务,并提供雷达图等可视化形式,方便开发者直观地看到文本识别、解析和翻译的结果,节省筛选时间。

2024-10-28 16:17:03 402

原创 合合信息亮相2024中国模式识别与计算机视觉大会,用AI构建图像内容安全防线

今年9月,由中国图象图形学学会、中国信息通信研究院、合合信息、中国科学技术大学等高校、公司联合编制,中国互联网协会发布的《文本图像篡改检测系统技术要求》围绕“细粒度”视觉差异伪造图像鉴别、生成式图像判别等行业焦点议题,建立了统一的评估框架,将助力文档图像处理技术安全、有序发展。现阶段,合合信息图像篡改检测技术已被应用于卡证篡改检测中,不仅在驾驶证、行驶证检测中实现了良好的鉴伪效果,也在银行移动开户、信用卡申办、保险理赔,财务报销审批及其他商业消费场景中广泛落地,为机构、企业规避图像伪造带来的经济风险。

2024-10-25 14:28:59 553

原创 单月30k+ Downloads!一款头部Embedding开源模型

acge_text_embedding模型由TextIn团队开发,是一个通用的文本编码模型——可变长度的向量化模型。Embedding是一种用于机器学习和自然语言处理领域的表示技术,它将高维的离散数据(如单词、句子或者图像的特征等)转换为低维的连续向量,这些向量能够捕捉到数据的语义特征和关系,将单词、短语或整个文档的语义和上下文信息封装在一个密集的、低维的向量空间中。acge模型使用了Matryoshka Representation Learning,建议使用的维度为1024或者1792。

2024-10-23 09:45:00 1236 24

原创 做好个人信息保护“守门员”,合合信息入选首批PIA典型案例集

据悉,《PIA典型案例集》根据《个人信息保护法》的五个法定场景进行归类,囊括了互联网、电信、政务、金融、制造、房地产、运输、教育、电商、医疗等常见行业领域,覆盖了身份核验、网络支付、个性化推送、云服务、大额资产交易、青少年模式、数据出境、内部风控等典型业务场景,详细讨论了企业在产品研发过程中处理敏感个人信息、利用个人信息进行自动化决策以及其他对个人权益有重大影响的个人信息处理活动等内容。大数据时代,做好个人信息保护工作离不开多方主体的支持和努力,平衡好个人信息保护和数据开发之间的关系,是企业应尽的责任。

2024-10-18 10:30:00 258

原创 复旦大学全球供应链研究中心揭牌,合合信息共话大数据赋能

他指出,合合信息通过整合工商信息、司法信息、税务信息、舆情信息等多维度数据,构建了全面的企业知识图谱与评分建模,能够为企业提供精准的供应商风险评估和信用评价(启信分)。同时,合合信息还利用大数据技术对供应链中的潜在风险进行预警和监控,帮助企业及时发现并应对潜在的风险挑战,解决了无法提前洞悉风险的难题。他提到,合合信息已经为众多知名企业提供了供应链数字化风控合规解决方案,通过大数据和人工智能技术,帮助企业实现了供应商遴选评估的数字化、自动化和智能化,从源头把控合作风险,提升供应链管理效率。

2024-10-17 18:37:02 526

原创 用户的声音| 出色的表格解析能力!TextIn文档解析助力金融信息化企业数据底座建设

最近,合小研收到了一些重要的用户反馈——它们来自各个行业领域的先锋用户,“大模型+”的前沿探索者。对AI从业者来说,今年诺贝尔奖的公布像一剂强心针,调动起了大家的热情,在世界范围内更广泛地看见AI的无限可能性。TextIn团队和我们的用户都是其中的一员。我们探讨各自的赛道和前进的方向,并在不同的领域注入AI的力量。我们将与大家分享与文档解析这款大模型加速器有关的故事——

2024-10-16 09:45:00 1519 21

原创 合合信息启信宝发布《数据产业全景——关键指标分析与趋势洞察》报告

从区域分布来看,据启信产业大脑数据显示,长三角、京津冀、粤港澳大湾区和成渝地区是我国数据企业的主要聚集地,分别拥有数据企业48596家、23524家、20014家和11791家,四个地区合计占比达53%,超过全国数据企业数量一半以上,表明数据产业集群正在加速形成。近日,合合信息旗下启信宝发布了《数据产业全景——关键指标分析与趋势洞察》报告,对我国数据产业蓬勃发展的态势进行了系统性地解析,基于产业链视角,深入剖析了数据产业的上中下游产业链,并通过产业的指标统计分析,为行业观察者展示了数据产业发展状况和趋势。

2024-10-12 15:38:38 428

原创 PDF解析+RAG,手把手教你在Coze搭建个人知识库!

在这个信息爆炸的时代,搭建个人知识库就像是拥有了一个超级智能的“外脑”。它不仅能帮你储存知识,还能在你需要的时候迅速地调取信息,提高知识的使用效率。今天,合小研会逐步演示如何在Coze扣子平台搭建个人知识库!

2024-10-11 09:45:00 1271 39

原创 OCR+PDF解析配套前端工具开源详解!

ParseX-Frontend是一套TextIn开发的可视化工具,它针对OCR或PDF解析结果审核校对、效果测评场景,也适用于翻译软件等一系列需要可视化比对的工具。项目用ES6开发,基于React框架,能够清晰全面地展示解析结果,具有丰富的可视化和交互功能。TextIn为相关领域的前端开发提供了优秀的范本。目前项目已在Github上开源!

2024-10-09 15:10:20 908

原创 PS技术vs篡改检测,P图“照妖镜”实力如何?

如何判断一张图片有没有被P过?社媒上的美颜照片尚属小事,但如果身份证、护照、学历证明这些重要文件和图片也能通过PS神技篡改,问题就大了。于是,江湖流传几款“鉴P技巧”,其中受到广泛肯定的主要有两种:检查图片中的异常区域如果一张图片被PS修改过,那么图片中可能会存在一些异常区域,如颜色、光线、透视关系等方面的不自然。检查这些异常区域可以帮助我们判断图片是否被PS修改过。检查图片的元数据许多数字图片都包含元数据,这些数据记录了图片的创建和修改历史。

2024-09-29 19:22:46 842 17

原创 中国信通院携手合合信息发布《文本图像篡改检测系统技术要求》

近日,由中国图象图形学学会、中国信息通信研究院、上海合合信息科技股份有限公司、中国科学技术大学、深圳大学、上海交通大学、华南理工大学、南开大学等高校、公司联合编制、中国互联网协会发布的《文本图像篡改检测系统技术要求》团体标准(简称“《要求》”)正式发布,将助力文档图像处理技术安全、有序发展。面对篡改图像以假乱真的难题,合合信息基于深度学习的图像篡改检测方法,推出了“PS篡改检测”技术,可检测出多种篡改形式,智能捕捉图像在篡改过程中留下的细微痕迹,并以热力图的形式展示图像区域篡改位置。

2024-09-20 11:07:14 342

原创 启信产业大脑助力市北高新园区数字化升级,开启智慧园区新篇章

一企一画像”平台集成了企业画像构建、经营监测与预警系统以及精准招商功能,针对传统园区管理难度大、企业监控难、招商效率低的痛点,提供了精准有效的解决方案。同时,平台加载的智能的经营监测与预警系统,能够实时洞察企业动态,及时发现并预警潜在风险,有效提升了园区的安商稳商能力。在企业监控方面,实时的预警机制有效降低了企业流失率,增强了园区的吸引力;在招商领域,“一企一画像”平台通过智能匹配能力,基于园区产业发展方向和智能算法推荐,为招商人员提供了精准的招商线索和潜在合作对象,极大地提高了招商工作的科学性和效率。

2024-09-18 15:01:13 319

原创 AI假图检测:Deepfake层出不穷,怎么才能“有图有真相”?

随着AIGC技术的迅猛发展,互联网上涌现出各种逼真的篡改照片和视频。“有图有真相”已经成为历史。而证件、票据、账单、流水等文件P图这些更为常见的伪造活动,也在AI技术的加持下如虎添翼,成为不少企业与机构的头疼难题。当肉眼不再能成为鉴别工具,通过科技手段进行对抗存在必要性。AI造假检测技术,是AIGC时代的一道安全防线。

2024-09-11 15:59:22 2098 33

原创 论文解读 -TongGu:专注于文言文的大模型

论文提出了TongGu(意为理解古代和现代),第一个专注于CCU的LLM。首先,论文构建了一个来自丰富的文言文语料库的两阶段指令调优数据集ACCN-INS,旨在解锁LLM的全部CCU潜力。其次,论文提出了冗余感知调优(RAT),以防止灾难性遗忘,使TongGu能够在保留其基础知识的同时获得新的能力。第三,论文提出了一种基于知识基础的CCU检索-增强生成(CCU-RAG)技术来减少幻觉。

2024-09-09 15:24:50 1169

原创 TextIn ParseX:助力开发者解析版面元素信息

TextIn ParseX通用文档解析是一款大模型友好的解析工具,支持将pdf文档、jpg、img图像等文件快速转换为markdown格式,支持各类表格、公式解析,帮助大语言模型的数据清洗和文档问答任务。

2024-09-05 09:38:55 1372 40

原创 合合信息启信宝参编国内首份《数据产业图谱(2024)》

近日,在2024中国国际大数据产业博览会上,北京交通大学张向宏教授正式发布了国内首部《数据产业图谱(2024)》(以下简称“图谱”)。该图谱由北京交通大学牵头,联合清华大学、北京大学、中国软件评测中心、华为、合合信息等11家单位共同参与构建。《数据产业图谱(2024)》首次全面展示了我国数据产业的基本内涵、构成、主体及特征,揭示了我国数据产业的蓬勃发展现状与巨大发展潜力。图谱的发布,为我国数据产业的发展提供了宝贵的参考依据。此次数据产业研究课题组中,合合信息旗下启信宝是唯一一家参与图谱编撰的数据企业。

2024-09-03 10:59:26 415

原创 AI赋能新质生产力培育,合合信息登上《人民日报》

近期,人民日报重点关注合合信息在“AI保护传统文化”中的探索动作,报道合合信息如何利用智能文档处理等AI技术赋能文化遗产保护传承,形成培育发展新质生产力的机制,推出新一代信息技术、人工智能产品。

2024-09-02 17:20:38 393

原创 数博会聚焦:合合信息启信宝践行数据创新应用

8月28日,2024中国国际大数据产业博览会在贵阳开幕。会议期间,国家数据局局长刘烈宏主持召开企业家座谈会,上海合合信息科技股份有限公司董事长镇立新受邀参加。刘烈宏认真听取企业家的发言,并表示,企业家们提供的情况为我们分析当前数字领域发展形势、研究制定政策举措提供了非常重要的参考。

2024-08-30 15:02:20 480

原创 图像处理中的对抗性研究:浅谈水印去除技术

不论是在社交媒体平台还是各类工作学习资料,大大小小的图像和文件水印是我们习以为常的附赠产物,在图像上叠加可见水印为解决版权问题提供了一种强有力的手段,它被用于在互联网共享时标识和保护图像版权。随着AIGC内容快速且大批量的产生,可见水印同样在其从传播过程中发挥着重要的作用。而基于技术发展相辅相成的规律,自水印出现之后,水印去除技术也进入图像处理领域研究者的视野,以对抗性的方式加强可见水印的鲁棒性。直至现在,研究如何有效移除水印为发明更强大的图像水印技术提供了线索,近年来已经吸引了越来越多的研究兴趣。

2024-08-29 10:00:00 1270 28

原创 A股迎来中报季,合合信息文档解析技术辅助大模型深度解读财报

合合信息大模型“加速器”方案优化升级了PDF文档解析技术,将非结构化的PDF内容转换为结构化数据,提高大模型图表类数据提取准确性和版面理解能力,助力大模型实现从”泛读“到“精读“的能力跨越。

2024-08-28 10:38:28 411

原创 巧用PDF转Markdown插件,在扣子(Coze)手搓一个有趣好玩的AI Bot

近期,TextIn团队开发的PDF转Markdown插件已经上架Coze平台。今天我们抛砖引玉,介(an)绍(li)几种PDF转Markdown插件的有趣玩法!

2024-08-22 10:23:13 1705 34

原创 沪港数据竞赛圆满落幕,启信宝独揽双重大奖

“数据要素x沪港合作开放数据竞赛2024”颁奖典礼暨“数据要素x”大赛上海分赛出征仪式圆满举行。合合信息旗下的启信宝凭借其卓越表现脱颖而出,荣获了最佳智慧经济奖及沪港赛评审团大奖。

2024-08-21 15:49:06 342

原创 Coze插件发布!PDF转Markdown功能便捷集成,打造你的专属智能体

近日,TextIn开发的PDF转Markdown插件正式上架Coze平台。“pdf转markdown”插件的上架为有PDF文件处理需求的用户提供了一个可靠的优选工具。

2024-08-19 10:14:05 1362 33

原创 变“金点子”为“好应用”,合合信息智能文档处理技术助力大学生探索AI创新边界

近日,“中国大学生服务外包创新创业大赛”决赛在江南大学圆满落幕。作为服务外包产业领域唯一的国家级赛事,近年来服创大赛的竞赛内容与方式不断创新,品牌效应持续扩大,已累计吸引1600余所院校、50余万名大学生报名参加。在人工智能发展如火如荼之际,大赛鼓励越来越多的青年学子们用创新技术解决现实社会问题。合合信息作为人工智能科技企业的代表,为参赛队伍提供赛题指导与技术支持,与高校学子共同探索技术应用场景广阔蓝海。

2024-08-14 10:48:34 385

原创 TextIn文档树引擎,助力RAG知识库问答检索召回能力提升

TextIn团队的文档解析测评工具Markdown Tester在Github发布后,我们陆续与大家探讨了目前业内对PDF解析工作的评判标准与我们各项测评指标的设计原理,包括段落、表格、公式、阅读顺序等维度。今天,我们将介绍另一项重要指标,也是业内面对的一项普遍性难点:标题识别,以及它如何影响数据清洗与RAG系统开发。

2024-08-13 09:45:00 1693 60

原创 商业银行国际结算规模创新高,合合信息AI助力金融行业智能处理多版式文档

随着我国外贸新业态的快速增长,银行国际结算业务在服务实体经济发展、促进贸易投资便利化进程中发挥了越来越重要的作用。根据中国银行业协会近日发布的《中国贸易金融行业发展报告(2023—2024)》,2023年我国主要商业银行国际结算规模再创历史新高,达到11.57万亿美元,较上一年增幅4.4%。中国商业银行在跨境供应链金融服务方面的强劲实力,对于促进内贸与外贸融合发展具有重要意义。

2024-08-02 10:52:27 467

原创 PDF解析,还能做得更好

随着大模型文档智能应用逐渐步入正轨,文档解析类产品成为其中重要的一环。文档解析工具能够“唤醒”沉睡在PDF文件中的知识,将其转化为机器能够识别、读取的信息,将可用数据从txt、csv格式扩展到大批量的电子档、扫描档文件,为数据处理、大模型训练、RAG系统开发提供优质的“燃料”。近期,文档解析的赛道越发火热,然而,作为解析产品的开发者之一,我们认为:PDF解析,还能做得更好.

2024-07-31 18:27:59 1950 50

原创 超13万律师使用的工具,启信宝推出“司法大数据”功能

合合信息旗下的启信宝,作为行业领先的商业查询APP,依托其3亿企业及机构的实时动态数据,涵盖工商、股权、司法、知识产权等多维度信息,推出了“司法大数据”功能。

2024-07-30 11:04:18 576

原创 合合信息参编“生成式人工智能个人信息保护技术要求系列标准”,助力AI行业可信发展

从企业发展角度看,标准为企业研发生成式人工智能降低了不确定性;如今,人类社会已经深度嵌入到互联网中,AI技术的广泛应用为公众提供了更加智能化的服务,但是在提供服务的同时,AI需要收集更多类型的用户信息作为“养料”,增加了个人信息泄露的风险。经过充分的研讨,《生成式人工智能个人信息保护技术要求》系列标准覆盖了生成式人工智能的设计、训练与应用三个阶段,主要围绕总则、隐私声明告知、训练数据构建、模型规制控制、供应链保障、二次开发管理、输出阶段管理、个人权利响应,共计从八个方面提出个人信息保护指引。

2024-07-29 11:23:39 485

原创 所见即所得,赋能RAG:PDF解析里的段落识别与阅读顺序还原

我们向用户推荐了文档解析产品,建议在处理多栏文件时使用文档解析来获得更好的识别结果。本期,我们主要介绍了PDF解析中段落与阅读顺序相关的指标及重要性。

2024-07-25 10:00:00 2302 56

原创 【论文解读】让我们逐步验证

本文简要介绍了大模型热门论文“Let’s Verify Step by Step ”的相关工作。近年来,大型语言模型在执行复杂的多步骤推理的能力上有了显著的提高。然而,即使是最先进的模型也会经常产生逻辑错误。为了训练更可靠的模型, 可以转向为最终结果提供反馈的结果监督,或者转向为每个中间推理步骤提供反馈的过程监督。考虑到训练可靠模型的重要性,并且考虑到人工反馈的高成本,仔细比较这两种方法是很重要的。

2024-07-24 11:01:05 982

原创 【论文解读】大模型算法发展

论文研究了自深度学习出现以来,预训练语言模型的算法的改进速度。使用Wikitext和Penn Treebank上超过200个语言模型评估的数据集(2012-2023年),论文发现达到设定性能阈值所需的计算大约每8个月减半一次,95%置信区间约为5到14个月,大大快于摩尔定律下的硬件增益。

2024-07-23 15:22:43 742

原创 聊聊文档解析测评里的表格指标

今天,我们来聊聊PDF解析过程中的一项重难点——表格。我们需要直面表格样式的复杂多变:无线表、合并单元格、跨页表格、超密集表格和不规则表单的还原,单元格内多行文字的还原等。在一些情况下,还会有扫描模糊或倾斜、表格中含有手写内容这些难度叠加buff。

2024-07-17 15:59:11 1534 28

原创 扫描全能王AIGC“黑科技”亮相WAIC,《人民日报》、央视、新华社同时“点赞”

2024年世界人工智能大会(WAIC)于近期圆满闭幕。今年,合合信息旗下扫描全能王展台成为大会的“网红”,以AI古籍修复为代表的体验项目不仅赢得了专业观众的赞誉,也获得了包括CCTV-4、CCTV-13、《人民日报》、新华社、解放日报、光明网等多家央媒在内的超过100家媒体的报道。

2024-07-11 16:53:55 339

原创 探索AI人才培养新范式,合合信息与同济大学软件学院签署产教融合人才培养协议

7月3日,上海合合信息科技股份有限公司与同济大学软件学院“产教融合人才培养签约暨创新实践基地”揭牌仪式顺利举行。合合信息董事长镇立新、副总经理陈青山及主要业务相关负责人,同济大学软件学院党委书记宋庆国带领合作组成员和部分本科生、研究生共同出席签约暨揭牌仪式。

2024-07-11 15:43:01 305 1

原创 以后再也不用肉眼测评解析产品了

今天给大家介绍一款测评工具,能方便快捷且全面地展示文档解析产品的能力。它的最大作用,是协助需要解析PDF的用户直观筛选最适合自己场景的产品,以期帮助大家节省“选择”和“测试”这两项工作消耗的时间和精力,更好地聚焦到业务场景。

2024-07-10 10:00:00 1627 24

原创 合合信息大模型“加速器”亮相2024世界人工智能大会,助力大模型学好“专业课”

合合信息在2024waic上展示了大模型“加速器”解决方案。据了解,在大模型训练的上游阶段,“加速器”中的文档解析引擎将助力大模型突破在书籍、论文、研报等文档中的版面解析障碍,从源头为模型训练与应用输送纯净的“燃料”,助力大模型跑得更快;“加速器”还加载了行业领先的acge文本向量化模型,助力大模型解决“已读乱回”的“幻觉”问题,让大模型在正确的航线上行驶得更远。

2024-07-05 21:26:41 758

原创 亮相2024世界人工智能大会,扫描全能王AIGC“黑科技”助力敦煌遗书数字化修复

7月4日,2024年世界人工智能大会(简称“大会”)在上海举行。这次这场科技与创新的盛会上,一张古朴、典雅的卷轴吸引了众人的目光。这张被修复的卷轴脱胎于敦煌遗书系列古籍,在被机器拍摄扫描后,卷轴上脏污、笔画残缺、模糊的文字被准确定位,缺失的文字缓缓浮现,犹如一位隐形的书法家,在页面上行云流水般自然地“填空”。

2024-07-04 20:18:17 774

原创 外挂级OCR神器:免费文档解析、表格识别、手写识别、古籍识别、PDF转Word

TextIn Tools是一款免费的在线OCR工具,支持快速准确的文字和表格识别,手写、古籍识别,提供PDF转Markdown大模型辅助工具,同时支持PDF、WORD、EXCEL、JPG、PPT等各类格式文件的转化。

2024-07-03 10:00:04 1886 23

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除