• 博客(191)
  • 收藏
  • 关注

原创 启信产业大脑助力市北高新园区数字化升级,开启智慧园区新篇章

一企一画像”平台集成了企业画像构建、经营监测与预警系统以及精准招商功能,针对传统园区管理难度大、企业监控难、招商效率低的痛点,提供了精准有效的解决方案。同时,平台加载的智能的经营监测与预警系统,能够实时洞察企业动态,及时发现并预警潜在风险,有效提升了园区的安商稳商能力。在企业监控方面,实时的预警机制有效降低了企业流失率,增强了园区的吸引力;在招商领域,“一企一画像”平台通过智能匹配能力,基于园区产业发展方向和智能算法推荐,为招商人员提供了精准的招商线索和潜在合作对象,极大地提高了招商工作的科学性和效率。

2024-09-18 15:01:13 235

原创 AI假图检测:Deepfake层出不穷,怎么才能“有图有真相”?

随着AIGC技术的迅猛发展,互联网上涌现出各种逼真的篡改照片和视频。“有图有真相”已经成为历史。而证件、票据、账单、流水等文件P图这些更为常见的伪造活动,也在AI技术的加持下如虎添翼,成为不少企业与机构的头疼难题。当肉眼不再能成为鉴别工具,通过科技手段进行对抗存在必要性。AI造假检测技术,是AIGC时代的一道安全防线。

2024-09-11 15:59:22 1540 33

原创 论文解读 -TongGu:专注于文言文的大模型

论文提出了TongGu(意为理解古代和现代),第一个专注于CCU的LLM。首先,论文构建了一个来自丰富的文言文语料库的两阶段指令调优数据集ACCN-INS,旨在解锁LLM的全部CCU潜力。其次,论文提出了冗余感知调优(RAT),以防止灾难性遗忘,使TongGu能够在保留其基础知识的同时获得新的能力。第三,论文提出了一种基于知识基础的CCU检索-增强生成(CCU-RAG)技术来减少幻觉。

2024-09-09 15:24:50 1067

原创 TextIn ParseX:助力开发者解析版面元素信息

TextIn ParseX通用文档解析是一款大模型友好的解析工具,支持将pdf文档、jpg、img图像等文件快速转换为markdown格式,支持各类表格、公式解析,帮助大语言模型的数据清洗和文档问答任务。

2024-09-05 09:38:55 1215 40

原创 合合信息启信宝参编国内首份《数据产业图谱(2024)》

近日,在2024中国国际大数据产业博览会上,北京交通大学张向宏教授正式发布了国内首部《数据产业图谱(2024)》(以下简称“图谱”)。该图谱由北京交通大学牵头,联合清华大学、北京大学、中国软件评测中心、华为、合合信息等11家单位共同参与构建。《数据产业图谱(2024)》首次全面展示了我国数据产业的基本内涵、构成、主体及特征,揭示了我国数据产业的蓬勃发展现状与巨大发展潜力。图谱的发布,为我国数据产业的发展提供了宝贵的参考依据。此次数据产业研究课题组中,合合信息旗下启信宝是唯一一家参与图谱编撰的数据企业。

2024-09-03 10:59:26 366

原创 AI赋能新质生产力培育,合合信息登上《人民日报》

近期,人民日报重点关注合合信息在“AI保护传统文化”中的探索动作,报道合合信息如何利用智能文档处理等AI技术赋能文化遗产保护传承,形成培育发展新质生产力的机制,推出新一代信息技术、人工智能产品。

2024-09-02 17:20:38 337

原创 数博会聚焦:合合信息启信宝践行数据创新应用

8月28日,2024中国国际大数据产业博览会在贵阳开幕。会议期间,国家数据局局长刘烈宏主持召开企业家座谈会,上海合合信息科技股份有限公司董事长镇立新受邀参加。刘烈宏认真听取企业家的发言,并表示,企业家们提供的情况为我们分析当前数字领域发展形势、研究制定政策举措提供了非常重要的参考。

2024-08-30 15:02:20 439

原创 图像处理中的对抗性研究:浅谈水印去除技术

不论是在社交媒体平台还是各类工作学习资料,大大小小的图像和文件水印是我们习以为常的附赠产物,在图像上叠加可见水印为解决版权问题提供了一种强有力的手段,它被用于在互联网共享时标识和保护图像版权。随着AIGC内容快速且大批量的产生,可见水印同样在其从传播过程中发挥着重要的作用。而基于技术发展相辅相成的规律,自水印出现之后,水印去除技术也进入图像处理领域研究者的视野,以对抗性的方式加强可见水印的鲁棒性。直至现在,研究如何有效移除水印为发明更强大的图像水印技术提供了线索,近年来已经吸引了越来越多的研究兴趣。

2024-08-29 10:00:00 1151 28

原创 A股迎来中报季,合合信息文档解析技术辅助大模型深度解读财报

合合信息大模型“加速器”方案优化升级了PDF文档解析技术,将非结构化的PDF内容转换为结构化数据,提高大模型图表类数据提取准确性和版面理解能力,助力大模型实现从”泛读“到“精读“的能力跨越。

2024-08-28 10:38:28 364

原创 巧用PDF转Markdown插件,在扣子(Coze)手搓一个有趣好玩的AI Bot

近期,TextIn团队开发的PDF转Markdown插件已经上架Coze平台。今天我们抛砖引玉,介(an)绍(li)几种PDF转Markdown插件的有趣玩法!

2024-08-22 10:23:13 1575 34

原创 沪港数据竞赛圆满落幕,启信宝独揽双重大奖

“数据要素x沪港合作开放数据竞赛2024”颁奖典礼暨“数据要素x”大赛上海分赛出征仪式圆满举行。合合信息旗下的启信宝凭借其卓越表现脱颖而出,荣获了最佳智慧经济奖及沪港赛评审团大奖。

2024-08-21 15:49:06 302

原创 Coze插件发布!PDF转Markdown功能便捷集成,打造你的专属智能体

近日,TextIn开发的PDF转Markdown插件正式上架Coze平台。“pdf转markdown”插件的上架为有PDF文件处理需求的用户提供了一个可靠的优选工具。

2024-08-19 10:14:05 1309 33

原创 变“金点子”为“好应用”,合合信息智能文档处理技术助力大学生探索AI创新边界

近日,“中国大学生服务外包创新创业大赛”决赛在江南大学圆满落幕。作为服务外包产业领域唯一的国家级赛事,近年来服创大赛的竞赛内容与方式不断创新,品牌效应持续扩大,已累计吸引1600余所院校、50余万名大学生报名参加。在人工智能发展如火如荼之际,大赛鼓励越来越多的青年学子们用创新技术解决现实社会问题。合合信息作为人工智能科技企业的代表,为参赛队伍提供赛题指导与技术支持,与高校学子共同探索技术应用场景广阔蓝海。

2024-08-14 10:48:34 359

原创 TextIn文档树引擎,助力RAG知识库问答检索召回能力提升

TextIn团队的文档解析测评工具Markdown Tester在Github发布后,我们陆续与大家探讨了目前业内对PDF解析工作的评判标准与我们各项测评指标的设计原理,包括段落、表格、公式、阅读顺序等维度。今天,我们将介绍另一项重要指标,也是业内面对的一项普遍性难点:标题识别,以及它如何影响数据清洗与RAG系统开发。

2024-08-13 09:45:00 1604 60

原创 商业银行国际结算规模创新高,合合信息AI助力金融行业智能处理多版式文档

随着我国外贸新业态的快速增长,银行国际结算业务在服务实体经济发展、促进贸易投资便利化进程中发挥了越来越重要的作用。根据中国银行业协会近日发布的《中国贸易金融行业发展报告(2023—2024)》,2023年我国主要商业银行国际结算规模再创历史新高,达到11.57万亿美元,较上一年增幅4.4%。中国商业银行在跨境供应链金融服务方面的强劲实力,对于促进内贸与外贸融合发展具有重要意义。

2024-08-02 10:52:27 426

原创 PDF解析,还能做得更好

随着大模型文档智能应用逐渐步入正轨,文档解析类产品成为其中重要的一环。文档解析工具能够“唤醒”沉睡在PDF文件中的知识,将其转化为机器能够识别、读取的信息,将可用数据从txt、csv格式扩展到大批量的电子档、扫描档文件,为数据处理、大模型训练、RAG系统开发提供优质的“燃料”。近期,文档解析的赛道越发火热,然而,作为解析产品的开发者之一,我们认为:PDF解析,还能做得更好.

2024-07-31 18:27:59 1717 50

原创 超13万律师使用的工具,启信宝推出“司法大数据”功能

合合信息旗下的启信宝,作为行业领先的商业查询APP,依托其3亿企业及机构的实时动态数据,涵盖工商、股权、司法、知识产权等多维度信息,推出了“司法大数据”功能。

2024-07-30 11:04:18 554

原创 合合信息参编“生成式人工智能个人信息保护技术要求系列标准”,助力AI行业可信发展

从企业发展角度看,标准为企业研发生成式人工智能降低了不确定性;如今,人类社会已经深度嵌入到互联网中,AI技术的广泛应用为公众提供了更加智能化的服务,但是在提供服务的同时,AI需要收集更多类型的用户信息作为“养料”,增加了个人信息泄露的风险。经过充分的研讨,《生成式人工智能个人信息保护技术要求》系列标准覆盖了生成式人工智能的设计、训练与应用三个阶段,主要围绕总则、隐私声明告知、训练数据构建、模型规制控制、供应链保障、二次开发管理、输出阶段管理、个人权利响应,共计从八个方面提出个人信息保护指引。

2024-07-29 11:23:39 453

原创 所见即所得,赋能RAG:PDF解析里的段落识别与阅读顺序还原

我们向用户推荐了文档解析产品,建议在处理多栏文件时使用文档解析来获得更好的识别结果。本期,我们主要介绍了PDF解析中段落与阅读顺序相关的指标及重要性。

2024-07-25 10:00:00 2227 56

原创 【论文解读】让我们逐步验证

本文简要介绍了大模型热门论文“Let’s Verify Step by Step ”的相关工作。近年来,大型语言模型在执行复杂的多步骤推理的能力上有了显著的提高。然而,即使是最先进的模型也会经常产生逻辑错误。为了训练更可靠的模型, 可以转向为最终结果提供反馈的结果监督,或者转向为每个中间推理步骤提供反馈的过程监督。考虑到训练可靠模型的重要性,并且考虑到人工反馈的高成本,仔细比较这两种方法是很重要的。

2024-07-24 11:01:05 948

原创 【论文解读】大模型算法发展

论文研究了自深度学习出现以来,预训练语言模型的算法的改进速度。使用Wikitext和Penn Treebank上超过200个语言模型评估的数据集(2012-2023年),论文发现达到设定性能阈值所需的计算大约每8个月减半一次,95%置信区间约为5到14个月,大大快于摩尔定律下的硬件增益。

2024-07-23 15:22:43 707

原创 聊聊文档解析测评里的表格指标

今天,我们来聊聊PDF解析过程中的一项重难点——表格。我们需要直面表格样式的复杂多变:无线表、合并单元格、跨页表格、超密集表格和不规则表单的还原,单元格内多行文字的还原等。在一些情况下,还会有扫描模糊或倾斜、表格中含有手写内容这些难度叠加buff。

2024-07-17 15:59:11 1482 28

原创 扫描全能王AIGC“黑科技”亮相WAIC,《人民日报》、央视、新华社同时“点赞”

2024年世界人工智能大会(WAIC)于近期圆满闭幕。今年,合合信息旗下扫描全能王展台成为大会的“网红”,以AI古籍修复为代表的体验项目不仅赢得了专业观众的赞誉,也获得了包括CCTV-4、CCTV-13、《人民日报》、新华社、解放日报、光明网等多家央媒在内的超过100家媒体的报道。

2024-07-11 16:53:55 287

原创 探索AI人才培养新范式,合合信息与同济大学软件学院签署产教融合人才培养协议

7月3日,上海合合信息科技股份有限公司与同济大学软件学院“产教融合人才培养签约暨创新实践基地”揭牌仪式顺利举行。合合信息董事长镇立新、副总经理陈青山及主要业务相关负责人,同济大学软件学院党委书记宋庆国带领合作组成员和部分本科生、研究生共同出席签约暨揭牌仪式。

2024-07-11 15:43:01 291 1

原创 以后再也不用肉眼测评解析产品了

今天给大家介绍一款测评工具,能方便快捷且全面地展示文档解析产品的能力。它的最大作用,是协助需要解析PDF的用户直观筛选最适合自己场景的产品,以期帮助大家节省“选择”和“测试”这两项工作消耗的时间和精力,更好地聚焦到业务场景。

2024-07-10 10:00:00 1606 24

原创 合合信息大模型“加速器”亮相2024世界人工智能大会,助力大模型学好“专业课”

合合信息在2024waic上展示了大模型“加速器”解决方案。据了解,在大模型训练的上游阶段,“加速器”中的文档解析引擎将助力大模型突破在书籍、论文、研报等文档中的版面解析障碍,从源头为模型训练与应用输送纯净的“燃料”,助力大模型跑得更快;“加速器”还加载了行业领先的acge文本向量化模型,助力大模型解决“已读乱回”的“幻觉”问题,让大模型在正确的航线上行驶得更远。

2024-07-05 21:26:41 735

原创 亮相2024世界人工智能大会,扫描全能王AIGC“黑科技”助力敦煌遗书数字化修复

7月4日,2024年世界人工智能大会(简称“大会”)在上海举行。这次这场科技与创新的盛会上,一张古朴、典雅的卷轴吸引了众人的目光。这张被修复的卷轴脱胎于敦煌遗书系列古籍,在被机器拍摄扫描后,卷轴上脏污、笔画残缺、模糊的文字被准确定位,缺失的文字缓缓浮现,犹如一位隐形的书法家,在页面上行云流水般自然地“填空”。

2024-07-04 20:18:17 735

原创 外挂级OCR神器:免费文档解析、表格识别、手写识别、古籍识别、PDF转Word

TextIn Tools是一款免费的在线OCR工具,支持快速准确的文字和表格识别,手写、古籍识别,提供PDF转Markdown大模型辅助工具,同时支持PDF、WORD、EXCEL、JPG、PPT等各类格式文件的转化。

2024-07-03 10:00:04 1814 23

原创 【论文解读】大模型的有效探索

论文提出的证据表明,通过有效地探索收集人类反馈以改进大型语言模型有实质性的好处。在论文的实验中,一个代理依次生成查询,同时拟合一个奖励模型的反馈收到。论文的最佳性能代理使用双汤普森抽样生成查询,其不确定性由一个认知神经网络表示。论文的结果表明,有效的探索可以用更少的查询实现高水平的性能。此外,不确定性估计和探索方案的选择都起着关键作用。

2024-07-01 12:02:31 720

原创 “所得”如何超越“所见”?合合信息扫描全能王发布扫描“黑科技”

近日,在生成式AI技术的加持下,合合信息旗下扫描全能王升级发布了智能高清滤镜2.0版本功能。该功能可智能研判图像问题,一键去除十余种干扰因素,显著提升文档画面清晰度。

2024-06-27 16:20:54 396

原创 全面升级,票据识别新纪元:合合信息TextIn多票识别2.0

国内通用票据识别V2.0(简称“多票识别2.0”)是一款凝聚了合合信息17年OCR技术积累的产品。目前,其1.0版本SaaS服务年调用次数已突破千万大关。多票识别2.0支持17大类、26小类票面识别,能够实现智能分类与精准结构化提取。无论是主流图片格式、多页PDF还是多页OFD格式,多票识别2.0都能轻松应对。

2024-06-20 09:53:58 1534 40

原创 携手知名律所,合合信息旗下名片全能王打造数字化名片“新范式”

在低碳办公理念盛行的当下,数字名片成为商务交流的新方式,以数字化智能化赋能绿色化。近期,合合信息旗下名片全能王企业数字名片升级,与上海市律师协会、广州市律师协会、北京大成(上海)律师事务所等多家律协及律所达成合作,推出的企业数字名片小程序可实现律师行业的定制化需求,全面赋能律师行业,助力加速数字化升级。

2024-06-13 14:12:40 396

原创 快准稳的文档解析工具,帮助构建性能优越的金融领域知识库问答产品

随着大模型应用落地速度加快,企业级应用相关技术模块日渐成熟,在各个行业领域,企业改革现有业务流程与生产方式、使用AI提高运作效率的可行性大幅度提升。其中,金融行业作为数据密集、更新快速的代表性行业之一,经常与前沿IT科技强绑定,是企业级技术更新的先锋领域。以目前相当热门的企业知识库问答产品为例,各大银行、券商已逐步开启引入AI技术提升工作效率的尝试。2024年初,邮储银行开始为一线柜台工作人员提供AI问答系统,并计划在年内接入信贷平台、业务前端,扩大系统适用范围;

2024-06-11 10:41:32 1783 42

原创 论文敲公式敲到“崩溃”?合合信息扫描全能王“公式识别”一键解决公式提取难题

同时,基于对公式的深度理解,持续优化识别模型,即使是“微妙”的数学符号,也能做到快速且精确识别。为了解决这一日常工作、学习场景中的需求痛点,扫描全能王全新推出“公式识别”功能,利用先进的AI扫描技术,自动检测并精准提取文本中的公式,将公式LaTeX格式文本渲染成为公式,相关公式可以被导出为Word形式,支持修改编辑。基于前沿的AI扫描技术,该功能可以精准识别、提取复杂公式,并将LaTeX格式的公式文本渲染成为公式,实现公式用Word导出,支持用户直接修改编辑公式,高效赋能学术科研。

2024-06-07 10:36:57 491

原创 【论文解读】针对机器人技术的大模型

大型语言模型(LLM)经历了显著的发展,并越来越多地跨各个领域集成。值得注意的是,在机器人任务规划领域,LLM利用其先进的推理和语言理解能力,基于自然语言指令制定精确和高效的行动规划。然而,对于机器人与复杂环境交互的具体化任务,由于与机器人视觉感知缺乏兼容性,纯文本LLM经常面临挑战。本研究提供了一个新兴的LLM和多模态LLM集成到各种机器人任务的全面概述。此外,论文还提出了一个利用多模式GPT-4V,通过结合自然语言指令和机器人视觉感知来增强具身任务规划的框架。

2024-06-06 10:30:00 1200

原创 100页2秒?我们为什么需要这样的文档解析速度

近期,TextIn通用文档解析完成最新一版产品迭代,将100页文档解析速度提升至最快2秒以内。

2024-06-03 09:41:12 1671 29

原创 亮相CCIG2024,合合信息文档解析技术破解大模型语料“饥荒”难题

现阶段,大量的高质量语料数据存在于书籍、论文、研报、企业文档等文档之中,复杂的版面结构制约了大模型的训练语料处理及大模型文档问答的应用能力。通过十几年技术积淀,合合信息打通了电子档解析、扫描档图像处理、文字识别、表格识别、版面分析、版面还原和排版布局等文档智能化处理的全流程,面对电子文档及扫描件,能够灵活地识别文字、表格、无线表、跨页表格、页眉、页脚、公式、图像、流程图等版面元素,准确地还原文档阅读顺序,为大模型领域提供了精准的训练语料与文档问答应用体验。高校研究者、学生排队体验智能文档处理技术。

2024-05-29 15:02:12 600 1

原创 打工人好用的大模型问答,还需要一款可靠的文档解析工具

在常规性知识问答之外,各个细分领域的专业性问答对打工人而言更加实用。合小研在阅读长篇幅论文、报告的时候,就经常需要大模型来完成一些综述、概括、辅助分析的工作,因此,我们非常关心一个问题:如果我提供一系列资料,目前大模型能为我反馈正确、精准的专业信息吗?

2024-05-28 09:58:42 1298 27

原创 【论文解读】大模型与游戏-综述和路线图

近年来,对大型语言模型(LLM)的研究出现了爆炸式的增长,同时伴随着公众对这一话题的参与。虽然LLM最初是自然语言处理中的一个领域,但它在包括游戏在内的广泛应用和领域中都显示出了非凡的潜力。本文调查了LLM在游戏中的各种应用程序的现状,并确定了LLM在游戏中可以扮演的不同角色。重要的是,作者讨论了LLM在游戏中未来使用的未开发领域和有希望的方向,并提出了LLM在游戏领域中的潜在和局限性。作为LLM和游戏交叉点的第一个全面调查和路线图,希望本文能够在这一令人兴奋的新领域为开创性的研究和创新提供基础。

2024-05-22 10:00:00 1109 1

原创 效率提升超30% ,合合信息智能文档处理技术赋能央企保理公司供应链审单

近日,合合信息与某央企保理公司达成合作,在智能文档处理技术的加持下,通过合同机器人等产品,对供应链贸易场景下的各类票证、合同进行场景化识别、关键信息抽取与智能审核,提升资金审批效率及放款速度,助力央企保理公司供应链金融管理效率的升级。

2024-05-15 10:28:38 508 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除