DatagrandRS-CSDN博客

原创 2023世界人工智能大会“AI生成与垂直大语言模型”论坛重磅来袭！

其中包含金融、医疗、运营商、旅游、教育、人力资源、传媒等各行业中智能文本生成、智能问答、文档处理、情感分析、智能营销、文本挖掘、用户体验洞察等各类创意场景。优刻得拥有从数据中心、服务器，到计算、存储、网络、安全、架构设计等全方位的资源和技术积累，全面的工程服务能力，一站式为大模型构建稳定安全的算力底座。个人版是一款开箱即用、全面免费的智能写作插件工具，拥有智能排版、AI润色、AI续写、AI扩写、AI全文写作、智能纠错、标题助手等特色功能，让用户快速创造有价值的内容，解决写作难题。

2023-06-08 10:09:40 403

原创新浪张俊林：大语言模型的涌现能力——现象与解释

复杂系统学科里已经对涌现现象做过很久的相关研究。那么，什么是“涌现现象”？当一个复杂系统由很多微小个体构成，这些微小个体凑到一起，相互作用，当数量足够多时，在宏观层面上展现出微观个体无法解释的特殊现象，就可以称之为“涌现现象”。生活中的涌现现象在日常生活中也有一些涌现现象，比如雪花的形成、堵车、动物迁徙、涡流形成等。这里以雪花为例来解释：雪花的构成是水分子，水分子很小，但是大量的水分子如果在外界温度条件变化的前提下相互作用，在宏观层面就会形成一个很规律、很对称、很美丽的雪花。

2023-04-28 14:11:34 648

原创上海首个大模型产业发展研讨会圆满落幕，众顶尖专家共探大模型产业

达观数据董事长兼CEO、复旦大学计算机博士陈运文以探索大语言模型的垂直化训练技术和应用为主题，细致分享了达观数据在垂直领域的语言模型方面的工程化探索，包括：参数规模和语言模型的参数规模探讨、通用大模型的预训练数据集研究、垂直领域的提示工程、达观“曹植”系统、达观数据的AIGC应用等，还介绍了金融专用大模型BloombergGPT的发展与应用。相信通过本次会议的交流和研讨，能够深入理解大模型的概念和应用，掌握"大模型"+"产业"时代的发展规律和趋势，为企业创新、产业升级和社会进步注入新动力。

2023-04-24 14:16:45 414

原创 ChatGPT及大模型专题研讨会在蓉成功举办共探前沿技术与产业发展

最后，关于ChatGPT引起的思考，李教授认为，从建设国家战略科技力量的高度出发，筛选技术基础好的产研机构，组成优势互补的产业协同组合，发挥科研机构在关键核心技术上的研究优势和大型科技企业在产品化、工程化、场景化、商业化和数据化方面的优势，努力让中国在新一轮人工智能革命中抢占先机。在技术与落地层面，与会专家们认为，ChatGPT带动了自然语言处理整体上下游以及芯片的思考和发展，某种程度上大模型可能将成为下一代的基础设施，中国需要有自己的基础模型体系，来保证安全性、并发性、稳定性等问题。

2023-04-24 13:56:49 384

原创达观助手AI写作下载安装教程及特色功能详解，速速收藏体验！

AI时代，你的写作工具需要更新啦！一款全面且的插件工具目前支持使用（Mac、office软件敬请期待）下载即拥有智能排版、AI润色、AI续写、标题助手、智能纠错、素材搜索等强大助力最新款的AI写作工具，快来下载体验看看！（电脑端复制网址在浏览器中打开）下载地址2：电脑端滑动至文末进入官网下载。

2023-04-13 20:09:30 2613

原创年度AI对话|达观陈运文：做私有部署的大模型，数据安全更具优势

本文内容来源于达观数据董事长兼CEO陈运文受邀出席36氪数字时氪的《年度AI对话》专栏采访内容大模型既带来了压力，也带来了机会文|杨俊编辑|石亚琼封面来源｜企业官方掌握了人工智能就掌握了新时代的生产力密码。在ChatGPT爆火的当下，大模型火遍全球，中国产业也激发了对人工智能应用的新热情。因此，这个时间点，36氪数字时氪团队正式启动《年度AI对话》专栏，希望与国内在大模型领域有着深度研究的专业人士进行热点话题的探讨，通过一系列报道，还原AI新的技术能力与应用潜力。

2023-04-12 15:52:45 883

原创达观数据研发“曹植”大语言模型，致力于国产GPT模型

目前“曹植”大模型目前已获得重要技术突破，以大量通用数据和领域数据自监督训练的LLM为基座模型，通过大量通用任务数据和领域任务数据进行Prompt Learning微调，在垂直领域内的理解和生成的任务上都达到了很好的效果。会上达观数据董事长兼CEO、复旦大学计算机博士陈运文以探索大语言模型的垂直化训练技术和应用为题，向听众展开介绍达观数据“曹植”垂直领域大语言模型的研发进展和工程化探索，这也是“曹植”首度面向公众亮相。在产品应用层面，以“曹植”大模型作为支撑，为达观全栈AIGC智能产品带来革命性效果提升。

2023-04-12 14:28:27 351

原创中科院张家俊：ChatGPT中的提示与指令学习

内容来源：ChatGPT 及大模型专题研讨会分享嘉宾：中国科学院自动化研究所研究员张家俊分享主题：《ChatGPT中的提示与指令学习》中国科学院自动化研究所研究员张家俊以ChatGPT中的提示与指令学习为题，从ChatGPT简要技术回顾、迈向通用性的提示学习、从提示学习到指令学习、相关探索与学习等角度和在场听众展开技术分享。大模型主要有两个方向，一个是“预训练+参数微调”，就是大模型有了之后针对下游任务进行微调，然后得到一个面向下游任务的大的模型，二是“预训练+提示学习”，预训练之后不变，

2023-04-12 08:00:00 709

转载 “国产类 ChatGPT ”所存在的差距与挑战-专家圆桌

内容来源：ChatGPT 及大模型专题研讨会转载自CSDN稿件在经历寒冬、雾霾，甚至大家纷纷看不到希望之际，ChatGPT 犹如一场春雨，给做 AI 甚至 NLP 等研究的人带来了新的希望。3 月 11 日，由中国人工智能学会主办，中国人工智能学会 NLP 专委会、真格基金、达观数据共同承办，中国信通院云大所支持的「ChatGPT 及大模型专题研讨会」正式举行。在圆桌对话环节，来自学术界、产业界及投资界的知名专家学者，就 ChatGPT 引发的新 AI 浪潮、大模型“基础模型”论、“国产类

2023-03-27 18:52:10 384

原创探索大语言模型垂直化训练技术和应用-陈运文

产品化的是请垂直领域的专家，针对每项垂直任务，来设计用于生成 prompt 的产品，由专家编写大量不同的 prompt，评估或输出好的 prompt 后，进行片段切分，形成相应的产品，这对未来 AIGC 任务会起到很好的作用。由上往下，当计算机做一个长文档的规划协作生成的内容，我们让相应的其他模型做一个生成后，引入分类模型，判断生成段落的上下文和相关性，把其他的模型的结果串连在当前的模型当中，能够进行迭代和顺序的循环调用，这样就能够突破现有当前大语言模型在特别长的文本当中生成的短板，能够提升它的写作效能。

2023-03-20 18:31:38 2316

原创复旦邱锡鹏：深度剖析 ChatGPT 类大语言模型的关键技术

目前 MOSS 收集了几百万真实人类对话数据，也在进一步迭代优化，也具有多轮交互的能力，所以对于指令的理解能力上，通用的语义理解能力上，和ChatGPT 非常类似，任何话它都能接得住，但它的质量没有 ChatGPT 那么好，原因在于模型比较小，知识量不够。对于一些 LLM 没有见过的新任务，只需要设计一些任务的语言描述，并给出几个任务实例，作为模型的输入，即可让模型从给定的情景中学习新任务并给出满意的回答结果。更重要的是它的涌现能力。例如，做一个电影的评论，给出相应的任务模型，即可输出正面的回答。

2023-03-16 20:00:00 3488

原创 AIGC用于智能写作的技术综述-达观数据

智能写作指使用自然语言处理技术来自动生成文本内容。这种技术通过分析给定语料库，学习文本的结构和语法，然后利用这些信息来生成新的文本。智能写作可以用来快速生成高质量的文本内容，并且可以用来完成诸如文章写作、报告生成和摘要提取等任务。图1为我们介绍了智能写作的基本概念，而令人意想不到的是，这一段介绍的作者竟是AI本身！这一段AI自动生成的“自我介绍”既富有逻辑条理，又阐述了正确的知识，这便是当下最火热的AIGC技术的威力！什么是AIGC？AIGC，即AI-ge

2022-12-28 20:00:00 2770 1

原创文字语义纠错技术探索与实践-张健

文本语义纠错的使用场景非常广泛，基本上只要涉及到写作就有文本纠错的需求。书籍面市前就有独立的校对的环节来保障出版之后不出现明显的问题。在新闻中我们也时不时看到因为文字审核没到位造成大乌龙的情况，包括上市公司在公开文书上把“临时大会”写成为“临死大会”，政府文件把“报效国家”写成了“报销国家”。有关文本纠错的辅助工具能给文字工作人员带来较大的便利，对审核方面的风险也大幅降低。除了不同的写作场景，文本纠错还会用在其他一些智能处理系统中，具体的情况包括：音频通话记录经过自动语音识别（ASR）转写成文本之后，存在一

2022-12-28 14:36:21 631

原创全国中文纠错大赛达观冠军方案分享：多模型结合的等长拼写纠错

中文拼写检查任务是中文自然语言处理中非常具有代表性和挑战性的任务，其本质是找出文本段落中的错别字。这项任务在各种领域，如公文，新闻、财报中都有很好的落地应用价值。而其任务的困难程度也赋予了它非常大的研究空间。达观数据在CCL2022汉语学习者文本纠错评测比赛的赛道一中文拼写检查（Chinese Spelling Check）任务中取得了全国冠军,赛道二中文语法纠错（Chinese Grammatical Error Diagnosis）任务中获得了亚军。本文基于赛道一中文拼写检查任务的内容，对比赛过程中采用

2022-12-28 14:34:22 496

原创中文语法纠错全国大赛获奖分享：基于多轮机制的中文语法纠错

由该赛道的评测指标可知，本次比赛不仅考察模型的纠错能力，还考察模型正确区分句子对错的能力；在实验分析的过程中，我们发现模型对多字词的缺失和句子不同位置的错误的纠错能力不同，并且当前的数据集未能覆盖绝大多数的错误，因此存在OOV的问题。在推理阶段，为了在输出的标签空间中搜索出一条最优的解码路径，我们利用局部路径解码方法对局部的移动编辑操作确定一条和为0的相对路径，并通过自适应阈值的方法对不同编辑操作、不同的词性和词频确定不同的修改接受阈值，由此提高模型的纠正准确率并解决模型的过度纠正等问题。

2022-12-28 14:32:22 596

原创海量文本中挖掘人物关联关系核心技术介绍-桂洪冠

本文将重点就人物关联关系挖掘及其关键技术进行分析。

2022-12-15 09:00:00 800

原创多模态文档LayoutLM版面智能理解技术演进-纪传俊

LayoutLM经过从1.0到3.0版本的迭代，不断优化模型，可见多模态技术对于文档理解的可行性和未来巨大的潜力

2022-12-07 10:44:19 503

原创达观数据联合同济大学发布新冠肺炎知识图谱数据集及智能问答系统

详细介绍了发表于期刊《Data Intelligence》的论文成果《COKG-QA: Multi-hop Question Answering over COVID-19 Knowledge Graphs》

2022-12-07 08:30:00 491

原创 RPA界面元素智能自适应定位与操控技术-金克

本文详细了RPA界面元素的应用技术及其优缺点

2022-12-01 08:30:00 689

原创一文详解BERT模型实现NER命名实体抽取-王文广

在自然语言处理和知识图谱中，实体抽取、NER是一个基本任务，也是产业化应用NLP 和知识图谱的关键技术之一。

2022-11-24 10:00:34 1258

原创知识图谱增强下的智能推荐系统与应用-于敬

基于知识图谱的推荐系统在推荐精准度和推荐结果可解释性方面具有诸多优势

2022-11-17 15:20:15 648

原创知识图谱构建下的自动问答KBQA系统实战-文辉

目前工程落地实现问答的技术路线基本分为基于知识图谱的问答（KBQA）、基于阅读理解的问答(MRC)和常见问题问答（FAQ）三种模式。

2022-11-10 08:30:00 1078

原创智能文档处理IDP关键技术与实践-高翔

IDP技术是针对文档内容自动处理分析的一揽子技术，除自然语言处理外，还包括计算机视觉、文档解析等相关底层技术。

2022-11-03 10:26:42 512

原创探索人机深度融合的高可用性人工智能应用

以人机协同的方式促进算力和模型的提高，才能真正实现“人工智能”。

2022-10-27 08:30:00 569

原创 OCR技术发展综述与达观数据的实践经验

将IDP、知识图谱和OCR进行融合，实践应用中发挥更大的价值。

2022-10-13 09:00:00 1045

原创达观智能推荐|移动互联网下半场洞察，短视频如何突破重围？

伴随着网络资费的降低、传输质量的提高以及智能手机的普及，我们已经迈入了移动互联网的时代。在这个新时代潮流之中，“短视频”已经悄然占据了传播的主流。这种时长在5分钟之内的视频，成为了继文字、图片、传统视频之后又一种重要的传播载体。在短视频中，用户不仅是消费者，也可以成为创作者，极强的参与感与互动性，使得短视频迅速风靡。短视频的兴起短视频兴起于2011年，成立没多久的快手从制作GIF的应用工具...

2019-12-27 15:34:11 1910

DatagrandRS的博客