• 博客(173)
  • 收藏
  • 关注

原创 所见即所得,赋能RAG:PDF解析里的段落识别与阅读顺序还原

我们向用户推荐了文档解析产品,建议在处理多栏文件时使用文档解析来获得更好的识别结果。本期,我们主要介绍了PDF解析中段落与阅读顺序相关的指标及重要性。

2024-07-25 10:00:00 1715 37

原创 【论文解读】让我们逐步验证

本文简要介绍了大模型热门论文“Let’s Verify Step by Step ”的相关工作。近年来,大型语言模型在执行复杂的多步骤推理的能力上有了显著的提高。然而,即使是最先进的模型也会经常产生逻辑错误。为了训练更可靠的模型, 可以转向为最终结果提供反馈的结果监督,或者转向为每个中间推理步骤提供反馈的过程监督。考虑到训练可靠模型的重要性,并且考虑到人工反馈的高成本,仔细比较这两种方法是很重要的。

2024-07-24 11:01:05 854

原创 【论文解读】大模型算法发展

论文研究了自深度学习出现以来,预训练语言模型的算法的改进速度。使用Wikitext和Penn Treebank上超过200个语言模型评估的数据集(2012-2023年),论文发现达到设定性能阈值所需的计算大约每8个月减半一次,95%置信区间约为5到14个月,大大快于摩尔定律下的硬件增益。

2024-07-23 15:22:43 563

原创 聊聊文档解析测评里的表格指标

今天,我们来聊聊PDF解析过程中的一项重难点——表格。我们需要直面表格样式的复杂多变:无线表、合并单元格、跨页表格、超密集表格和不规则表单的还原,单元格内多行文字的还原等。在一些情况下,还会有扫描模糊或倾斜、表格中含有手写内容这些难度叠加buff。

2024-07-17 15:59:11 1317 28

原创 扫描全能王AIGC“黑科技”亮相WAIC,《人民日报》、央视、新华社同时“点赞”

2024年世界人工智能大会(WAIC)于近期圆满闭幕。今年,合合信息旗下扫描全能王展台成为大会的“网红”,以AI古籍修复为代表的体验项目不仅赢得了专业观众的赞誉,也获得了包括CCTV-4、CCTV-13、《人民日报》、新华社、解放日报、光明网等多家央媒在内的超过100家媒体的报道。

2024-07-11 16:53:55 173

原创 探索AI人才培养新范式,合合信息与同济大学软件学院签署产教融合人才培养协议

7月3日,上海合合信息科技股份有限公司与同济大学软件学院“产教融合人才培养签约暨创新实践基地”揭牌仪式顺利举行。合合信息董事长镇立新、副总经理陈青山及主要业务相关负责人,同济大学软件学院党委书记宋庆国带领合作组成员和部分本科生、研究生共同出席签约暨揭牌仪式。

2024-07-11 15:43:01 209 1

原创 以后再也不用肉眼测评解析产品了

今天给大家介绍一款测评工具,能方便快捷且全面地展示文档解析产品的能力。它的最大作用,是协助需要解析PDF的用户直观筛选最适合自己场景的产品,以期帮助大家节省“选择”和“测试”这两项工作消耗的时间和精力,更好地聚焦到业务场景。

2024-07-10 10:00:00 1523 24

原创 合合信息大模型“加速器”亮相2024世界人工智能大会,助力大模型学好“专业课”

合合信息在2024waic上展示了大模型“加速器”解决方案。据了解,在大模型训练的上游阶段,“加速器”中的文档解析引擎将助力大模型突破在书籍、论文、研报等文档中的版面解析障碍,从源头为模型训练与应用输送纯净的“燃料”,助力大模型跑得更快;“加速器”还加载了行业领先的acge文本向量化模型,助力大模型解决“已读乱回”的“幻觉”问题,让大模型在正确的航线上行驶得更远。

2024-07-05 21:26:41 658

原创 亮相2024世界人工智能大会,扫描全能王AIGC“黑科技”助力敦煌遗书数字化修复

7月4日,2024年世界人工智能大会(简称“大会”)在上海举行。这次这场科技与创新的盛会上,一张古朴、典雅的卷轴吸引了众人的目光。这张被修复的卷轴脱胎于敦煌遗书系列古籍,在被机器拍摄扫描后,卷轴上脏污、笔画残缺、模糊的文字被准确定位,缺失的文字缓缓浮现,犹如一位隐形的书法家,在页面上行云流水般自然地“填空”。

2024-07-04 20:18:17 640

原创 外挂级OCR神器:免费文档解析、表格识别、手写识别、古籍识别、PDF转Word

TextIn Tools是一款免费的在线OCR工具,支持快速准确的文字和表格识别,手写、古籍识别,提供PDF转Markdown大模型辅助工具,同时支持PDF、WORD、EXCEL、JPG、PPT等各类格式文件的转化。

2024-07-03 10:00:04 1692 23

原创 【论文解读】大模型的有效探索

论文提出的证据表明,通过有效地探索收集人类反馈以改进大型语言模型有实质性的好处。在论文的实验中,一个代理依次生成查询,同时拟合一个奖励模型的反馈收到。论文的最佳性能代理使用双汤普森抽样生成查询,其不确定性由一个认知神经网络表示。论文的结果表明,有效的探索可以用更少的查询实现高水平的性能。此外,不确定性估计和探索方案的选择都起着关键作用。

2024-07-01 12:02:31 661

原创 “所得”如何超越“所见”?合合信息扫描全能王发布扫描“黑科技”

近日,在生成式AI技术的加持下,合合信息旗下扫描全能王升级发布了智能高清滤镜2.0版本功能。该功能可智能研判图像问题,一键去除十余种干扰因素,显著提升文档画面清晰度。

2024-06-27 16:20:54 345

原创 全面升级,票据识别新纪元:合合信息TextIn多票识别2.0

国内通用票据识别V2.0(简称“多票识别2.0”)是一款凝聚了合合信息17年OCR技术积累的产品。目前,其1.0版本SaaS服务年调用次数已突破千万大关。多票识别2.0支持17大类、26小类票面识别,能够实现智能分类与精准结构化提取。无论是主流图片格式、多页PDF还是多页OFD格式,多票识别2.0都能轻松应对。

2024-06-20 09:53:58 1455 40

原创 携手知名律所,合合信息旗下名片全能王打造数字化名片“新范式”

在低碳办公理念盛行的当下,数字名片成为商务交流的新方式,以数字化智能化赋能绿色化。近期,合合信息旗下名片全能王企业数字名片升级,与上海市律师协会、广州市律师协会、北京大成(上海)律师事务所等多家律协及律所达成合作,推出的企业数字名片小程序可实现律师行业的定制化需求,全面赋能律师行业,助力加速数字化升级。

2024-06-13 14:12:40 361

原创 快准稳的文档解析工具,帮助构建性能优越的金融领域知识库问答产品

随着大模型应用落地速度加快,企业级应用相关技术模块日渐成熟,在各个行业领域,企业改革现有业务流程与生产方式、使用AI提高运作效率的可行性大幅度提升。其中,金融行业作为数据密集、更新快速的代表性行业之一,经常与前沿IT科技强绑定,是企业级技术更新的先锋领域。以目前相当热门的企业知识库问答产品为例,各大银行、券商已逐步开启引入AI技术提升工作效率的尝试。2024年初,邮储银行开始为一线柜台工作人员提供AI问答系统,并计划在年内接入信贷平台、业务前端,扩大系统适用范围;

2024-06-11 10:41:32 1735 42

原创 论文敲公式敲到“崩溃”?合合信息扫描全能王“公式识别”一键解决公式提取难题

同时,基于对公式的深度理解,持续优化识别模型,即使是“微妙”的数学符号,也能做到快速且精确识别。为了解决这一日常工作、学习场景中的需求痛点,扫描全能王全新推出“公式识别”功能,利用先进的AI扫描技术,自动检测并精准提取文本中的公式,将公式LaTeX格式文本渲染成为公式,相关公式可以被导出为Word形式,支持修改编辑。基于前沿的AI扫描技术,该功能可以精准识别、提取复杂公式,并将LaTeX格式的公式文本渲染成为公式,实现公式用Word导出,支持用户直接修改编辑公式,高效赋能学术科研。

2024-06-07 10:36:57 457

原创 【论文解读】针对机器人技术的大模型

大型语言模型(LLM)经历了显著的发展,并越来越多地跨各个领域集成。值得注意的是,在机器人任务规划领域,LLM利用其先进的推理和语言理解能力,基于自然语言指令制定精确和高效的行动规划。然而,对于机器人与复杂环境交互的具体化任务,由于与机器人视觉感知缺乏兼容性,纯文本LLM经常面临挑战。本研究提供了一个新兴的LLM和多模态LLM集成到各种机器人任务的全面概述。此外,论文还提出了一个利用多模式GPT-4V,通过结合自然语言指令和机器人视觉感知来增强具身任务规划的框架。

2024-06-06 10:30:00 1107

原创 100页2秒?我们为什么需要这样的文档解析速度

近期,TextIn通用文档解析完成最新一版产品迭代,将100页文档解析速度提升至最快2秒以内。

2024-06-03 09:41:12 1633 29

原创 亮相CCIG2024,合合信息文档解析技术破解大模型语料“饥荒”难题

现阶段,大量的高质量语料数据存在于书籍、论文、研报、企业文档等文档之中,复杂的版面结构制约了大模型的训练语料处理及大模型文档问答的应用能力。通过十几年技术积淀,合合信息打通了电子档解析、扫描档图像处理、文字识别、表格识别、版面分析、版面还原和排版布局等文档智能化处理的全流程,面对电子文档及扫描件,能够灵活地识别文字、表格、无线表、跨页表格、页眉、页脚、公式、图像、流程图等版面元素,准确地还原文档阅读顺序,为大模型领域提供了精准的训练语料与文档问答应用体验。高校研究者、学生排队体验智能文档处理技术。

2024-05-29 15:02:12 566 1

原创 打工人好用的大模型问答,还需要一款可靠的文档解析工具

在常规性知识问答之外,各个细分领域的专业性问答对打工人而言更加实用。合小研在阅读长篇幅论文、报告的时候,就经常需要大模型来完成一些综述、概括、辅助分析的工作,因此,我们非常关心一个问题:如果我提供一系列资料,目前大模型能为我反馈正确、精准的专业信息吗?

2024-05-28 09:58:42 1249 27

原创 【论文解读】大模型与游戏-综述和路线图

近年来,对大型语言模型(LLM)的研究出现了爆炸式的增长,同时伴随着公众对这一话题的参与。虽然LLM最初是自然语言处理中的一个领域,但它在包括游戏在内的广泛应用和领域中都显示出了非凡的潜力。本文调查了LLM在游戏中的各种应用程序的现状,并确定了LLM在游戏中可以扮演的不同角色。重要的是,作者讨论了LLM在游戏中未来使用的未开发领域和有希望的方向,并提出了LLM在游戏领域中的潜在和局限性。作为LLM和游戏交叉点的第一个全面调查和路线图,希望本文能够在这一令人兴奋的新领域为开创性的研究和创新提供基础。

2024-05-22 10:00:00 1056 1

原创 效率提升超30% ,合合信息智能文档处理技术赋能央企保理公司供应链审单

近日,合合信息与某央企保理公司达成合作,在智能文档处理技术的加持下,通过合同机器人等产品,对供应链贸易场景下的各类票证、合同进行场景化识别、关键信息抽取与智能审核,提升资金审批效率及放款速度,助力央企保理公司供应链金融管理效率的升级。

2024-05-15 10:28:38 481 1

原创 合合信息携手业界专家,解码数据资产管理方法与入表的关键路径

随着财政部印发的《企业数据资源相关会计处理暂行规定》提出企业数据资产入表相关办法,《数据资产评估指导意见》中进一步规范数据资产评估行为,细化数据资产评估操作要求,对解决数据要素市场建设中的“数据赋值”难题提供了有效方案。数据资产管理与入表成为当前社会关注热点和数据资产行业的兴奋点。有鉴于此,上海国家会计学院联合上海数据交易所、上海市数商协会,推出的“数据资产研修班”旨在全面解读政策、深入研讨典型案例,加速企业数字化战略转型。近期,研修班走进合合信息,与天职国际会计师事务所共同交流数据资产入表与管理方法。

2024-05-14 10:29:28 646

原创 这款PDF解析工具,精准触达大模型问答应用的需要

过去的一年,是大语言模型快速发展的一年。大模型强大的语言理解能力,逐渐让用户习惯了将各类文章丢给大模型,让它来帮忙总结提炼。从产品角度看,这是一次10倍体验的飞跃,意味着巨大的市场机会。也因此,市面上涌现出了大量的文档+大模型的应用。但大多数的开发者普遍都会遇到一个问题,那就是各种文档的效果都想做好,兼容起来太麻烦了,有没有更好的解决方案?以PDF为例,通常大家会尝试选择开源工具,比如PyPDF2,但发现它们对中文的支持都不太好;

2024-05-11 10:00:00 1801 34

原创 突破内外数据融合场景堵点,合合信息启信宝赋能银行对公业务数智化建设

合合信息旗下启信宝凭借在银行对公营销、信贷风控、运营管理等核心场景的数据应用优势,入选报告《数据要素X金融服务》优秀场景应用案例。

2024-04-29 10:25:27 367

原创 论文解读-面向高效生成大语言模型服务:从算法到系统综述

在快速发展的人工智能(AI)领域中,生成式大型语言模型(llm)站在了最前沿,彻底改变了论文与数据交互的方式。然而,部署这些模型的计算强度和内存消耗在服务效率方面带来了重大挑战,特别是在要求低延迟和高吞吐量的场景中。本调查从机器学习系统(MLSys)研究的角度,解决了对高效LLM服务方法的迫切需求,这是先进人工智能创新和实际系统优化的关键。

2024-04-26 10:31:17 1033

原创 AI将诗意装进口袋!合合信息扫描全能王“扫描书籍”功能优化上线

人间最美四月天,正是读书好时节。4月20日至23日,正值“世界读书日”之际,合合信息旗下扫描全能王联合上海首家图像小说主题书店——安古莱姆书店,共同发起“春天正是读书天”线下公益阅读活动,为公众带来一场春日文学盛宴。

2024-04-23 14:14:21 356 1

原创 免费在线OCR识别工具TextIn Tools,开启智能学习新时代

同学,你是否还在苦恼笔记必须手写摘抄?带字照片只能插入文档?PDF转换要花钱买会员?今天给大家带来一款既好用又免费的在线OCR识别工具tools.textin.com,它不仅仅具有文字和表格识别工具,还包含PDF转文件等工具,一站式服务为你解决所有问题。

2024-04-17 10:44:24 4335 61

原创 科技助力上亿用户隐私安全保护,合合信息两款产品再获CCIA PIA星级标识

随着互联网技术的飞速发展,个人信息的收集、存储、使用和传输变得日益频繁,其泄露和滥用的风险也随之增加,个人信息保护已成为社会共同关注的热点议题。近期,“中国网络安全产业联盟(CCIA)数据安全工作委员会”“数据安全共同体计划(DSC)”等组织共同发起了第二批评估工作——“个人信息保护影响评估专题工作(简称‘PIA专题工作’)”,合合信息旗下的名片全能王、启信宝等产品获得了“PIA二星级标识”。

2024-04-16 10:03:41 426

原创 【合合TextIn】智能文档处理系列—电子文档解析技术全格式解析

在当今的数字化时代,电子文档已成为信息存储和交流的基石。从简单的文本文件到复杂的演示文档,各种格式的电子文档承载着丰富的知识与信息,支撑着教育、科研、商业和日常生活的各个方面。随着信息量的爆炸性增长,如何高效、准确地处理和分析这些电子文档,已经成为信息技术领域面临的一大挑战。在这一背景下,电子文档解析技术应运而生,并迅速发展成为智能文档处理技术中的一个关键组成部分。

2024-04-15 10:33:15 1340 39

原创 合合信息分享数据资产管理经验,释放数据要素价值,发展新质生产力

为加快推动产业数据行业创新中心建设、搭建高效的供需对接平台,4月9日,上海数据交易所、上海合合信息科技股份有限公司(下称“合合信息”)和上海市数商协会联合举办DSM系列——产业数据行业创新中心专题研讨会,以“数据资产管理与创新应用”为主题,探讨产业数据产品化、资产化,共促产业数据流通交易,共拓数据资产创新应用新机遇。

2024-04-11 15:30:12 568

原创 【论文解读】大模型事实性调查(下)

论文的讨论过渡到评估LLM事实性的方法,强调关键指标、基准和研究。论文进一步探索了增强LLM事实性的策略,包括针对特定领域的方法。论文主要关注两种主要的LLM配置——独立的LLM和利用外部数据的检索-增强的LLM——论文详细介绍了它们所面临的独特挑战和潜在的增强功能。论文的调查为研究人员提供了一个结构化的指导,旨在加强llm的事实可靠性。

2024-04-10 10:46:30 980

原创 【论文解读】大模型事实性调查(上)

本调查探讨了大型语言模型(llm)中的事实性的关键问题。随着llm在不同领域的应用,其输出的可靠性和准确性变得至关重要。论文将“事实性问题”定义为llm产生与既定事实不一致的内容的概率。

2024-04-08 13:54:58 1110

原创 合合信息推出国央企智能文档处理解决方案,AI赋能信创国产化

近期,合合信息基于人工智能技术推出国央企智能文档处理解决方案,通过场景智能文字识别引擎等产品,为国央企提供从多版式票证识别服务到文档数据分析全流程服务。此外,方案还通过智能文字识别训练平台,降低国央企文档文字识别模型开发门槛,助力国央企数字化转型和信创国产化落地。

2024-04-03 11:07:27 995

原创 【合合TextIn】AI构建新质生产力,合合信息Embedding模型助力专业知识应用

现阶段,大语言模型的飞速发展吸引着社会各界的目光,背后支撑大型语言模型应用落地的Embedding模型也成为业内关注的焦点。近期,合合信息发布了文本向量化模型acge_text_embedding(简称“acge模型”),获得MTEB中文榜单(C-MTEB)第一的成绩。

2024-04-01 10:30:13 1827 56

原创 启信宝商业大数据助力全国经济普查

近日,合合信息旗下启信宝收到中国青年创业就业基金会感谢信,对启信宝协同助力全国经济普查和服务青年创业就业研究表达感谢。

2024-03-29 15:26:41 476

原创 【合合TextIn】OCR身份证 / 银行卡识别功能适配鸿蒙系统

自鸿蒙系统推出以来,其不仅成为了华为在软件领域的重要里程碑,更是国产操作系统的一面旗帜,也是国产移动平台几乎唯一的选择,标志着中国在构建独立自主的软件生态体系上迈出了重要一步。随着鸿蒙操作系统的迅速崛起和信创国产化战略的深入推进,市场对兼容国产软件生态的需求日益增长。在这样的大背景下,合合信息两款最热门的OCR产品——身份证识别和银行卡识别——已经全面完成对鸿蒙系统的适配。

2024-03-26 10:30:00 2690 44

原创 【合合TextIn】深度解析智能文档处理技术与应用

智能文档处理的发展离不开机器学习、深度学习、OCR(光学字符识别)和自然语言处理等关键技术的进步。早期的文档处理主要依赖于模板匹配和规则-based的方法,这些方法在处理结构化文档时效果不错,但面对复杂的非结构化文档时则显得力不从心。随着深度学习技术的突破,尤其是卷积神经网络(CNN)和循环神经网络(RNN)在图像识别和文本处理领域的应用,使得IDP技术能够更加精准地识别和理解文档内容。此外,BERT、GPT等预训练语言模型的出现,进一步推动了IDP技术在理解复杂语言结构和语义上的能力。

2024-03-22 10:33:17 1825 60

原创 合合信息扫描全能王亮相静安区3·15活动,AI扫描带来绿色消费新体验

保护消费者的合法权益,是全社会的共同责任。为优化消费环境、促进品质消费高地建设,打造安全优质和谐的消费环境,上海静安区消保委于3月15日举办静安区2024年“3·15”国际消费者权益日活动。在消费体验区,合合信息作为科技企业代表,给消费者们带来了别开生面的智能文档扫描体验。工作人员现场演示了通过智能文字识别技术将古老的甲骨文转化为现代文字的过程。智能文字识别技术可以帮助考古工作者识别残缺、不易辨别的甲骨文,这不仅是科技对传统文化的致敬,更是科技在考古、文化保护等领域应用的生动展现。

2024-03-19 15:43:36 365

原创 合合信息旗下启信宝3·15黄金市场洞察:新增企业量5年连降

日前,合合信息旗下启信宝基于产业链数据库,从全国黄金企业中珠宝首饰设计相关企业(下称“黄金珠宝企业”)的存续情况、新增情况、区域表现等数据进行分析洞察,通过商业大数据帮助消费者研判黄金珠宝产业发展前景,让消费回归理性。

2024-03-14 14:27:38 921

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除