• 博客(185)
  • 收藏
  • 关注

原创 数博会聚焦:合合信息启信宝践行数据创新应用

8月28日,2024中国国际大数据产业博览会在贵阳开幕。会议期间,国家数据局局长刘烈宏主持召开企业家座谈会,上海合合信息科技股份有限公司董事长镇立新受邀参加。刘烈宏认真听取企业家的发言,并表示,企业家们提供的情况为我们分析当前数字领域发展形势、研究制定政策举措提供了非常重要的参考。

2024-08-30 15:02:20 264

原创 图像处理中的对抗性研究:浅谈水印去除技术

不论是在社交媒体平台还是各类工作学习资料,大大小小的图像和文件水印是我们习以为常的附赠产物,在图像上叠加可见水印为解决版权问题提供了一种强有力的手段,它被用于在互联网共享时标识和保护图像版权。随着AIGC内容快速且大批量的产生,可见水印同样在其从传播过程中发挥着重要的作用。而基于技术发展相辅相成的规律,自水印出现之后,水印去除技术也进入图像处理领域研究者的视野,以对抗性的方式加强可见水印的鲁棒性。直至现在,研究如何有效移除水印为发明更强大的图像水印技术提供了线索,近年来已经吸引了越来越多的研究兴趣。

2024-08-29 10:00:00 1027 27

原创 A股迎来中报季,合合信息文档解析技术辅助大模型深度解读财报

合合信息大模型“加速器”方案优化升级了PDF文档解析技术,将非结构化的PDF内容转换为结构化数据,提高大模型图表类数据提取准确性和版面理解能力,助力大模型实现从”泛读“到“精读“的能力跨越。

2024-08-28 10:38:28 314

原创 巧用PDF转Markdown插件,在扣子(Coze)手搓一个有趣好玩的AI Bot

近期,TextIn团队开发的PDF转Markdown插件已经上架Coze平台。今天我们抛砖引玉,介(an)绍(li)几种PDF转Markdown插件的有趣玩法!

2024-08-22 10:23:13 1428 32

原创 沪港数据竞赛圆满落幕,启信宝独揽双重大奖

“数据要素x沪港合作开放数据竞赛2024”颁奖典礼暨“数据要素x”大赛上海分赛出征仪式圆满举行。合合信息旗下的启信宝凭借其卓越表现脱颖而出,荣获了最佳智慧经济奖及沪港赛评审团大奖。

2024-08-21 15:49:06 261

原创 Coze插件发布!PDF转Markdown功能便捷集成,打造你的专属智能体

近日,TextIn开发的PDF转Markdown插件正式上架Coze平台。“pdf转markdown”插件的上架为有PDF文件处理需求的用户提供了一个可靠的优选工具。

2024-08-19 10:14:05 1134 33

原创 变“金点子”为“好应用”,合合信息智能文档处理技术助力大学生探索AI创新边界

近日,“中国大学生服务外包创新创业大赛”决赛在江南大学圆满落幕。作为服务外包产业领域唯一的国家级赛事,近年来服创大赛的竞赛内容与方式不断创新,品牌效应持续扩大,已累计吸引1600余所院校、50余万名大学生报名参加。在人工智能发展如火如荼之际,大赛鼓励越来越多的青年学子们用创新技术解决现实社会问题。合合信息作为人工智能科技企业的代表,为参赛队伍提供赛题指导与技术支持,与高校学子共同探索技术应用场景广阔蓝海。

2024-08-14 10:48:34 327

原创 TextIn文档树引擎,助力RAG知识库问答检索召回能力提升

TextIn团队的文档解析测评工具Markdown Tester在Github发布后,我们陆续与大家探讨了目前业内对PDF解析工作的评判标准与我们各项测评指标的设计原理,包括段落、表格、公式、阅读顺序等维度。今天,我们将介绍另一项重要指标,也是业内面对的一项普遍性难点:标题识别,以及它如何影响数据清洗与RAG系统开发。

2024-08-13 09:45:00 1453 60

原创 商业银行国际结算规模创新高,合合信息AI助力金融行业智能处理多版式文档

随着我国外贸新业态的快速增长,银行国际结算业务在服务实体经济发展、促进贸易投资便利化进程中发挥了越来越重要的作用。根据中国银行业协会近日发布的《中国贸易金融行业发展报告(2023—2024)》,2023年我国主要商业银行国际结算规模再创历史新高,达到11.57万亿美元,较上一年增幅4.4%。中国商业银行在跨境供应链金融服务方面的强劲实力,对于促进内贸与外贸融合发展具有重要意义。

2024-08-02 10:52:27 395

原创 PDF解析,还能做得更好

随着大模型文档智能应用逐渐步入正轨,文档解析类产品成为其中重要的一环。文档解析工具能够“唤醒”沉睡在PDF文件中的知识,将其转化为机器能够识别、读取的信息,将可用数据从txt、csv格式扩展到大批量的电子档、扫描档文件,为数据处理、大模型训练、RAG系统开发提供优质的“燃料”。近期,文档解析的赛道越发火热,然而,作为解析产品的开发者之一,我们认为:PDF解析,还能做得更好.

2024-07-31 18:27:59 1615 50

原创 超13万律师使用的工具,启信宝推出“司法大数据”功能

合合信息旗下的启信宝,作为行业领先的商业查询APP,依托其3亿企业及机构的实时动态数据,涵盖工商、股权、司法、知识产权等多维度信息,推出了“司法大数据”功能。

2024-07-30 11:04:18 520

原创 合合信息参编“生成式人工智能个人信息保护技术要求系列标准”,助力AI行业可信发展

从企业发展角度看,标准为企业研发生成式人工智能降低了不确定性;如今,人类社会已经深度嵌入到互联网中,AI技术的广泛应用为公众提供了更加智能化的服务,但是在提供服务的同时,AI需要收集更多类型的用户信息作为“养料”,增加了个人信息泄露的风险。经过充分的研讨,《生成式人工智能个人信息保护技术要求》系列标准覆盖了生成式人工智能的设计、训练与应用三个阶段,主要围绕总则、隐私声明告知、训练数据构建、模型规制控制、供应链保障、二次开发管理、输出阶段管理、个人权利响应,共计从八个方面提出个人信息保护指引。

2024-07-29 11:23:39 418

原创 所见即所得,赋能RAG:PDF解析里的段落识别与阅读顺序还原

我们向用户推荐了文档解析产品,建议在处理多栏文件时使用文档解析来获得更好的识别结果。本期,我们主要介绍了PDF解析中段落与阅读顺序相关的指标及重要性。

2024-07-25 10:00:00 2179 56

原创 【论文解读】让我们逐步验证

本文简要介绍了大模型热门论文“Let’s Verify Step by Step ”的相关工作。近年来,大型语言模型在执行复杂的多步骤推理的能力上有了显著的提高。然而,即使是最先进的模型也会经常产生逻辑错误。为了训练更可靠的模型, 可以转向为最终结果提供反馈的结果监督,或者转向为每个中间推理步骤提供反馈的过程监督。考虑到训练可靠模型的重要性,并且考虑到人工反馈的高成本,仔细比较这两种方法是很重要的。

2024-07-24 11:01:05 915

原创 【论文解读】大模型算法发展

论文研究了自深度学习出现以来,预训练语言模型的算法的改进速度。使用Wikitext和Penn Treebank上超过200个语言模型评估的数据集(2012-2023年),论文发现达到设定性能阈值所需的计算大约每8个月减半一次,95%置信区间约为5到14个月,大大快于摩尔定律下的硬件增益。

2024-07-23 15:22:43 661

原创 聊聊文档解析测评里的表格指标

今天,我们来聊聊PDF解析过程中的一项重难点——表格。我们需要直面表格样式的复杂多变:无线表、合并单元格、跨页表格、超密集表格和不规则表单的还原,单元格内多行文字的还原等。在一些情况下,还会有扫描模糊或倾斜、表格中含有手写内容这些难度叠加buff。

2024-07-17 15:59:11 1444 28

原创 扫描全能王AIGC“黑科技”亮相WAIC,《人民日报》、央视、新华社同时“点赞”

2024年世界人工智能大会(WAIC)于近期圆满闭幕。今年,合合信息旗下扫描全能王展台成为大会的“网红”,以AI古籍修复为代表的体验项目不仅赢得了专业观众的赞誉,也获得了包括CCTV-4、CCTV-13、《人民日报》、新华社、解放日报、光明网等多家央媒在内的超过100家媒体的报道。

2024-07-11 16:53:55 253

原创 探索AI人才培养新范式,合合信息与同济大学软件学院签署产教融合人才培养协议

7月3日,上海合合信息科技股份有限公司与同济大学软件学院“产教融合人才培养签约暨创新实践基地”揭牌仪式顺利举行。合合信息董事长镇立新、副总经理陈青山及主要业务相关负责人,同济大学软件学院党委书记宋庆国带领合作组成员和部分本科生、研究生共同出席签约暨揭牌仪式。

2024-07-11 15:43:01 268 1

原创 以后再也不用肉眼测评解析产品了

今天给大家介绍一款测评工具,能方便快捷且全面地展示文档解析产品的能力。它的最大作用,是协助需要解析PDF的用户直观筛选最适合自己场景的产品,以期帮助大家节省“选择”和“测试”这两项工作消耗的时间和精力,更好地聚焦到业务场景。

2024-07-10 10:00:00 1581 24

原创 合合信息大模型“加速器”亮相2024世界人工智能大会,助力大模型学好“专业课”

合合信息在2024waic上展示了大模型“加速器”解决方案。据了解,在大模型训练的上游阶段,“加速器”中的文档解析引擎将助力大模型突破在书籍、论文、研报等文档中的版面解析障碍,从源头为模型训练与应用输送纯净的“燃料”,助力大模型跑得更快;“加速器”还加载了行业领先的acge文本向量化模型,助力大模型解决“已读乱回”的“幻觉”问题,让大模型在正确的航线上行驶得更远。

2024-07-05 21:26:41 704

原创 亮相2024世界人工智能大会,扫描全能王AIGC“黑科技”助力敦煌遗书数字化修复

7月4日,2024年世界人工智能大会(简称“大会”)在上海举行。这次这场科技与创新的盛会上,一张古朴、典雅的卷轴吸引了众人的目光。这张被修复的卷轴脱胎于敦煌遗书系列古籍,在被机器拍摄扫描后,卷轴上脏污、笔画残缺、模糊的文字被准确定位,缺失的文字缓缓浮现,犹如一位隐形的书法家,在页面上行云流水般自然地“填空”。

2024-07-04 20:18:17 703

原创 外挂级OCR神器:免费文档解析、表格识别、手写识别、古籍识别、PDF转Word

TextIn Tools是一款免费的在线OCR工具,支持快速准确的文字和表格识别,手写、古籍识别,提供PDF转Markdown大模型辅助工具,同时支持PDF、WORD、EXCEL、JPG、PPT等各类格式文件的转化。

2024-07-03 10:00:04 1778 23

原创 【论文解读】大模型的有效探索

论文提出的证据表明,通过有效地探索收集人类反馈以改进大型语言模型有实质性的好处。在论文的实验中,一个代理依次生成查询,同时拟合一个奖励模型的反馈收到。论文的最佳性能代理使用双汤普森抽样生成查询,其不确定性由一个认知神经网络表示。论文的结果表明,有效的探索可以用更少的查询实现高水平的性能。此外,不确定性估计和探索方案的选择都起着关键作用。

2024-07-01 12:02:31 704

原创 “所得”如何超越“所见”?合合信息扫描全能王发布扫描“黑科技”

近日,在生成式AI技术的加持下,合合信息旗下扫描全能王升级发布了智能高清滤镜2.0版本功能。该功能可智能研判图像问题,一键去除十余种干扰因素,显著提升文档画面清晰度。

2024-06-27 16:20:54 386

原创 全面升级,票据识别新纪元:合合信息TextIn多票识别2.0

国内通用票据识别V2.0(简称“多票识别2.0”)是一款凝聚了合合信息17年OCR技术积累的产品。目前,其1.0版本SaaS服务年调用次数已突破千万大关。多票识别2.0支持17大类、26小类票面识别,能够实现智能分类与精准结构化提取。无论是主流图片格式、多页PDF还是多页OFD格式,多票识别2.0都能轻松应对。

2024-06-20 09:53:58 1515 40

原创 携手知名律所,合合信息旗下名片全能王打造数字化名片“新范式”

在低碳办公理念盛行的当下,数字名片成为商务交流的新方式,以数字化智能化赋能绿色化。近期,合合信息旗下名片全能王企业数字名片升级,与上海市律师协会、广州市律师协会、北京大成(上海)律师事务所等多家律协及律所达成合作,推出的企业数字名片小程序可实现律师行业的定制化需求,全面赋能律师行业,助力加速数字化升级。

2024-06-13 14:12:40 393

原创 快准稳的文档解析工具,帮助构建性能优越的金融领域知识库问答产品

随着大模型应用落地速度加快,企业级应用相关技术模块日渐成熟,在各个行业领域,企业改革现有业务流程与生产方式、使用AI提高运作效率的可行性大幅度提升。其中,金融行业作为数据密集、更新快速的代表性行业之一,经常与前沿IT科技强绑定,是企业级技术更新的先锋领域。以目前相当热门的企业知识库问答产品为例,各大银行、券商已逐步开启引入AI技术提升工作效率的尝试。2024年初,邮储银行开始为一线柜台工作人员提供AI问答系统,并计划在年内接入信贷平台、业务前端,扩大系统适用范围;

2024-06-11 10:41:32 1771 42

原创 论文敲公式敲到“崩溃”?合合信息扫描全能王“公式识别”一键解决公式提取难题

同时,基于对公式的深度理解,持续优化识别模型,即使是“微妙”的数学符号,也能做到快速且精确识别。为了解决这一日常工作、学习场景中的需求痛点,扫描全能王全新推出“公式识别”功能,利用先进的AI扫描技术,自动检测并精准提取文本中的公式,将公式LaTeX格式文本渲染成为公式,相关公式可以被导出为Word形式,支持修改编辑。基于前沿的AI扫描技术,该功能可以精准识别、提取复杂公式,并将LaTeX格式的公式文本渲染成为公式,实现公式用Word导出,支持用户直接修改编辑公式,高效赋能学术科研。

2024-06-07 10:36:57 484

原创 【论文解读】针对机器人技术的大模型

大型语言模型(LLM)经历了显著的发展,并越来越多地跨各个领域集成。值得注意的是,在机器人任务规划领域,LLM利用其先进的推理和语言理解能力,基于自然语言指令制定精确和高效的行动规划。然而,对于机器人与复杂环境交互的具体化任务,由于与机器人视觉感知缺乏兼容性,纯文本LLM经常面临挑战。本研究提供了一个新兴的LLM和多模态LLM集成到各种机器人任务的全面概述。此外,论文还提出了一个利用多模式GPT-4V,通过结合自然语言指令和机器人视觉感知来增强具身任务规划的框架。

2024-06-06 10:30:00 1165

原创 100页2秒?我们为什么需要这样的文档解析速度

近期,TextIn通用文档解析完成最新一版产品迭代,将100页文档解析速度提升至最快2秒以内。

2024-06-03 09:41:12 1660 29

原创 亮相CCIG2024,合合信息文档解析技术破解大模型语料“饥荒”难题

现阶段,大量的高质量语料数据存在于书籍、论文、研报、企业文档等文档之中,复杂的版面结构制约了大模型的训练语料处理及大模型文档问答的应用能力。通过十几年技术积淀,合合信息打通了电子档解析、扫描档图像处理、文字识别、表格识别、版面分析、版面还原和排版布局等文档智能化处理的全流程,面对电子文档及扫描件,能够灵活地识别文字、表格、无线表、跨页表格、页眉、页脚、公式、图像、流程图等版面元素,准确地还原文档阅读顺序,为大模型领域提供了精准的训练语料与文档问答应用体验。高校研究者、学生排队体验智能文档处理技术。

2024-05-29 15:02:12 589 1

原创 打工人好用的大模型问答,还需要一款可靠的文档解析工具

在常规性知识问答之外,各个细分领域的专业性问答对打工人而言更加实用。合小研在阅读长篇幅论文、报告的时候,就经常需要大模型来完成一些综述、概括、辅助分析的工作,因此,我们非常关心一个问题:如果我提供一系列资料,目前大模型能为我反馈正确、精准的专业信息吗?

2024-05-28 09:58:42 1284 27

原创 【论文解读】大模型与游戏-综述和路线图

近年来,对大型语言模型(LLM)的研究出现了爆炸式的增长,同时伴随着公众对这一话题的参与。虽然LLM最初是自然语言处理中的一个领域,但它在包括游戏在内的广泛应用和领域中都显示出了非凡的潜力。本文调查了LLM在游戏中的各种应用程序的现状,并确定了LLM在游戏中可以扮演的不同角色。重要的是,作者讨论了LLM在游戏中未来使用的未开发领域和有希望的方向,并提出了LLM在游戏领域中的潜在和局限性。作为LLM和游戏交叉点的第一个全面调查和路线图,希望本文能够在这一令人兴奋的新领域为开创性的研究和创新提供基础。

2024-05-22 10:00:00 1092 1

原创 效率提升超30% ,合合信息智能文档处理技术赋能央企保理公司供应链审单

近日,合合信息与某央企保理公司达成合作,在智能文档处理技术的加持下,通过合同机器人等产品,对供应链贸易场景下的各类票证、合同进行场景化识别、关键信息抽取与智能审核,提升资金审批效率及放款速度,助力央企保理公司供应链金融管理效率的升级。

2024-05-15 10:28:38 502 1

原创 合合信息携手业界专家,解码数据资产管理方法与入表的关键路径

随着财政部印发的《企业数据资源相关会计处理暂行规定》提出企业数据资产入表相关办法,《数据资产评估指导意见》中进一步规范数据资产评估行为,细化数据资产评估操作要求,对解决数据要素市场建设中的“数据赋值”难题提供了有效方案。数据资产管理与入表成为当前社会关注热点和数据资产行业的兴奋点。有鉴于此,上海国家会计学院联合上海数据交易所、上海市数商协会,推出的“数据资产研修班”旨在全面解读政策、深入研讨典型案例,加速企业数字化战略转型。近期,研修班走进合合信息,与天职国际会计师事务所共同交流数据资产入表与管理方法。

2024-05-14 10:29:28 660

原创 这款PDF解析工具,精准触达大模型问答应用的需要

过去的一年,是大语言模型快速发展的一年。大模型强大的语言理解能力,逐渐让用户习惯了将各类文章丢给大模型,让它来帮忙总结提炼。从产品角度看,这是一次10倍体验的飞跃,意味着巨大的市场机会。也因此,市面上涌现出了大量的文档+大模型的应用。但大多数的开发者普遍都会遇到一个问题,那就是各种文档的效果都想做好,兼容起来太麻烦了,有没有更好的解决方案?以PDF为例,通常大家会尝试选择开源工具,比如PyPDF2,但发现它们对中文的支持都不太好;

2024-05-11 10:00:00 1827 34

原创 突破内外数据融合场景堵点,合合信息启信宝赋能银行对公业务数智化建设

合合信息旗下启信宝凭借在银行对公营销、信贷风控、运营管理等核心场景的数据应用优势,入选报告《数据要素X金融服务》优秀场景应用案例。

2024-04-29 10:25:27 379

原创 论文解读-面向高效生成大语言模型服务:从算法到系统综述

在快速发展的人工智能(AI)领域中,生成式大型语言模型(llm)站在了最前沿,彻底改变了论文与数据交互的方式。然而,部署这些模型的计算强度和内存消耗在服务效率方面带来了重大挑战,特别是在要求低延迟和高吞吐量的场景中。本调查从机器学习系统(MLSys)研究的角度,解决了对高效LLM服务方法的迫切需求,这是先进人工智能创新和实际系统优化的关键。

2024-04-26 10:31:17 1078

原创 AI将诗意装进口袋!合合信息扫描全能王“扫描书籍”功能优化上线

人间最美四月天,正是读书好时节。4月20日至23日,正值“世界读书日”之际,合合信息旗下扫描全能王联合上海首家图像小说主题书店——安古莱姆书店,共同发起“春天正是读书天”线下公益阅读活动,为公众带来一场春日文学盛宴。

2024-04-23 14:14:21 364 1

原创 免费在线OCR识别工具TextIn Tools,开启智能学习新时代

同学,你是否还在苦恼笔记必须手写摘抄?带字照片只能插入文档?PDF转换要花钱买会员?今天给大家带来一款既好用又免费的在线OCR识别工具tools.textin.com,它不仅仅具有文字和表格识别工具,还包含PDF转文件等工具,一站式服务为你解决所有问题。

2024-04-17 10:44:24 4370 61

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除