樱花的浪漫
梦想还是要有的,更要成为一名不懈追求梦想的人
展开
-
OUTFOX: LLM-Generated Essay Detection Through In-Context Learningwith Adversarially Generated Examp
大型语言模型(LLMs)以其庞大的模型规模及广泛的训练数据为显著特征,已在众多任务中展现出卓越的性能,涵盖高度的语言理解能力、流畅的文本生成以及通过上下文学习处理新任务的能力。然而,伴随这些成功而来的是对LLM潜在滥用的日益增长的忧虑,尤其是在教育领域,学生可能利用LLM生成的文本进行抄袭作业。鉴于此,设计能够识别LLM生成文本的检测器显得尤为重要。遗憾的是,当前存在的检测器在面对简单攻击(如文本转述)时,其表现往往不尽如人意。原创 2024-08-03 16:57:30 · 36 阅读 · 0 评论 -
揭秘对话式搜索中的广告检测——Detecting Generated Native Ads in Conversational Search
大型语言模型(LLMs)已成为构建对话式搜索引擎与检索增强生成系统的主流标准。然而,在大型规模上部署基于LLM的搜索引擎面临高昂成本,且尚缺乏明确的可持续商业模式。尽管订阅模式具备可行性,但鉴于广告在传统搜索引擎中的高收益性,其在对话式搜索中亦可能占据重要地位。对话式搜索引擎为广告领域带来了新兴机遇,允许将针对查询的相关产品或品牌广告直接融入生成的响应中。此类广告形式类似于原生广告与产品植入,其设计旨在模仿非商业内容的风格,并无缝融入娱乐内容之中。原创 2024-08-02 19:08:06 · 47 阅读 · 0 评论 -
Message Injection Attack on Rumor Detection under the Black-Box Evasion Setting Using Large Language
社交媒体平台在一定程度上加速了谣言的散播。近期的研究已将谣言检测视作一项图分类任务,并深入探讨了基于消息传播树(MPT)的谣言检测器。具体而言,MPT被构想为对话树的形式,其中根节点象征着源帖子,而后续节点则代表了转发或评论。相较于其他基于深度学习的谣言检测器,基于MPT的检测器通过学习MPT中的传播信息,在揭露谣言方面展现出了更优异的性能。然而,基于MPT的谣言检测器也面临着对抗性攻击的潜在威胁。评估其鲁棒性对于确保检测器在实际应用中的可靠性至关重要。原创 2024-07-31 17:35:57 · 26 阅读 · 0 评论 -
大模型虽然具有幻觉,但是在事实验证方面具备较强的能力——Language Models Hallucinate, but May Excel at Fact Verification
LLMs在各类自然语言生成任务中展现出非凡能力,但“幻觉”问题依然是其不容忽视的短板,具体表现为生成非事实性或误导性内容。针对当前主流LLMs进行的人类评估结果显示,GPT-3.5在Wikipedia等熟悉领域生成的事实性输出比例亦不足25%,其他模型表现更为逊色。这一发现再次强调了“幻觉”问题的严峻性,并强调了开发高效事实验证策略的重要性。论文第二部分深入探讨了利用指令调优的LLMs进行事实验证的可行性。研究通过系统调查证实,原创 2024-07-26 13:06:52 · 39 阅读 · 0 评论 -
SNIFFER:用于可解释性的虚假信息检测的多模态大语言模型
近年来,随着Deepfake及其他媒体操纵技术的广泛应用,其逼真效果和对假新闻传播速度的显著加速,已引起社会各界的广泛关注。其中,将未经篡改的图像与全新的但虚假或误导性的上下文结合,形成所谓的“脱离上下文”(OOC)误导信息,已成为误导公众视线的一种简单且普遍的手段。以最近的以色列-哈马斯战争为例,社交媒体上涌现了大量OOC误导信息,这些误导信息往往涉及旧有图像的滥用,被错误地关联至不相关的武装冲突场景,甚至电子游戏内的军事画面。原创 2024-07-25 18:22:09 · 164 阅读 · 0 评论 -
多模态大语言模型助力现实世界的事实核查——Multimodal Large Language Models to Support Real-WorldFact-Checking
互联网中的虚假信息是一个重大挑战,尤其是涉及多模态声明的虚假信息,这些声明结合了文本、图像、视频和其他媒体类型。在这些情况下,视觉组件可能被操纵或用于使虚假声明脱离上下文。事实核查员和他们使用的工具需要能够处理多种模式。大语言模型(LLMs)存储了超出任何个人所能掌握的广泛信息,并且比任何搜索引擎都更具人性化。因此,它们可以成为事实核查员的强大工具,后者经常需要额外的事实知识来验证声明。原创 2024-07-23 11:32:07 · 43 阅读 · 0 评论 -
Graph RAG——从局部到全局实现高效查询摘要(QFS)
在现代信息处理技术的广袤领域中,检索增强生成(RAG)技术已成为从外部知识源检索相关信息的重要工具,使得大型语言模型(LLM)能够有效回答涉及私人或未见过的文档集合的查询。然而,在应对全局性查询时,RAG技术的效能受限。例如,当用户提出“数据集中的主要主题是什么?”此类问题时,便需要一种能够综合整个文本语料库信息的解决方案,这构成了查询聚焦的摘要(QFS)任务的核心。传统QFS方法在处理大规模文本时面临扩展性挑战,难以有效应对RAG系统所需的海量文本处理需求。原创 2024-07-14 11:36:41 · 254 阅读 · 0 评论 -
FakeNewsGPT4:通过知识增强的大规模视觉语言模型推进多模态假新闻检测
当前,多模态假新闻的大量涌现导致了显著的分布差异,这一现状亟需我们开发具备广泛适用性的检测器。然而,现有假新闻检测器因特定领域内的训练方式,难以有效获取开放世界中的事实信息。这种训练的封闭性限制了传统检测器的能力,特别是在面对跨域假新闻时,其表现往往不尽如人意。具体而言,开放世界中的假新闻在两个方面具有显著的分布差异:一方面,其操纵内容多种多样,新闻的任一部分都可能受到创意策略的操控;另一方面,真实背景复杂多变,不同地区的新闻背景和主题焦点存在显著差异。原创 2024-07-12 12:07:40 · 397 阅读 · 0 评论 -
利用外部知识增强的LEMMA模型:提升多模态虚假信息检测的LVLM方法
多模态虚假信息通过综合文字、图像和视频等多元化形式,在社交平台上的传播过程中,相较于单一的文本虚假信息,其展现出了更高的可信度和深远的影响力,这无疑增加了其检测的难度。尽管大型语言模型(LLMs)在传统自然语言处理任务中展现出卓越的性能,但由于仅局限于文本资源处理,其在虚假信息检测领域的应用受到了限制。相比之下,大型视觉语言模型(LVLM)由于能够同时处理视觉和文本信息,展现出了在多模态虚假信息检测领域的显著潜力。然而,经研究发现,原创 2024-07-10 12:27:37 · 94 阅读 · 0 评论 -
文本大模型下游任务与peft微调实战
大模型在当前的技术背景下,尽管看似遥不可及,但我们仍需探讨如何克服算力挑战,并将其有效地应用于下游任务。lamma模型为我们提供了一个解决方案,它表明通过利用仅13B参数量的模型,我们依然可以达到接近1730亿参数的效果。接下来,我们不得不提及LORA技术,它针对的是模型训练过程中的实际挑战。显然,为每一个下游任务微调数千亿级别的参数是不切实际的。LORA提出了一种创新思路,即为每个下游任务训练一个小模型,并结合大模型与小模型的参数。这种方法不仅降低了应用大模型的难度,同时也增强了预训练大模型的通用性。原创 2024-07-09 19:39:46 · 755 阅读 · 0 评论 -
Tell Me Why:利用大型语言模型进行可解释的公共健康事实核查
最近的COVID-19大流行突显了公共健康领域事实核查的关键需求。在信息通过社交媒体平台迅速传播的时代,手动事实核查的可行性面临重大挑战。健康领域的错误信息可能造成严重甚至致命的后果,这强调了自动化事实核查机制在防止潜在危机和保护公共健康中的重要作用。提供清晰的解释是有效事实核查的重要组成部分,因为事实核查人员需要说服其受众他们的基于证据的结论。虽然某些机器学习模型(如决策树和线性回归)由于其简单的操作框架而提供了一定程度的可解释性,但随着基于神经网络的大型语言模型的出现,情况发生了巨大变化。原创 2024-07-08 10:31:25 · 191 阅读 · 0 评论 -
文本关系抽取实战
语言技术平台(LTP) 提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、 高效、精准的自然语言处理技术。关系可以是直接表达的,如“张三的父亲是李四”,也可以是隐含的,需要通过上下文推断。比如,指出“苹果公司”是“发布”的主语,“新手机”是宾语,这有助于识别出动作的执行者和承受者。例如,“苹果公司发布了新手机”会切分成“苹果”、“公司”、“发布”、“了”、“新”、“手机”。:首先需要识别出文本中的关键实体,这些实体可以是人名、地名、组织机构、时间、数量等具有特定意义的信息。原创 2024-07-07 18:33:37 · 408 阅读 · 0 评论 -
AgentOhana:打造统一数据和训练管道,提升智能体学习效果
近年来,大型语言模型(LLMs)在多个领域,如代码生成、数学推理、对话式人工智能及AI智能体等,已展现出卓越的能力。此类模型,例如OpenAI的GPT-4,在处理复杂任务及长时间推理时表现突出,因此吸引了广泛的研究关注与开源社区的兴趣。为支持智能体任务,已有多项框架(如AutoGPT、OpenAgent、BOLAA、XAgent、LangChain)被设计并获得了显著关注。然而,值得注意的是,许多现有的智能体仍依赖于封闭源码的LLM API,这主要源于大多数开源模型在应对复杂智能体任务时表现不佳。原创 2024-07-06 12:45:25 · 59 阅读 · 0 评论 -
FANG:利用社交网络图进行虚假新闻检测
(1)实体的定义(2)交互类型立场关系的类型:中立支持(neutral support)、负面支持(negative support)、否认(deny)、报告(report)(3)虚假新闻的定义。原创 2024-07-05 20:17:48 · 76 阅读 · 0 评论 -
大型语言模型能否生成可信的事实核查解释?——通过多智能体辩论实现可信可解释的事实核查
在数字化时代,对于迅速传播的错误信息,其核实与明确的核实解释同等重要,这对于构建用户信任体系具有决定性意义。缺乏解释往往导致用户对事实核查结果的质疑与不信任。特别是在多跳事实核查中,解释生成的必要性更为凸显,因其涉及跨越多重证据片段的复杂推理过程,旨在准确评估声明的真实性。尽管大型语言模型(LLMs)在多样化文本生成方面展现出了显著能力,但其在生成可信事实核查解释方面的性能尚未得到充分的研究与验证。可信性在此处显得尤为重要,错误的解释不仅无法纠正错误信息,反而可能加剧其影响,从而引发一系列严峻挑战。原创 2024-07-01 12:15:00 · 173 阅读 · 0 评论 -
基于知识图谱的医药问答系统实战
JDK 安装:https://www.oracle.com/java/technologies/javase-downloads.htmlNeo4j 安装:https://neo4j.com/download-center/ 配置好 JDK 和 Neo4j 的环境变量启动:neo4j.bat console第一次启动有默认用户名和密码:neo4j neo4j 数据是从网上爬取的医疗数据,其中包含疾病名称、症状等多个字段。 运行build_medicalgraph.py,可创建知识图谱原创 2024-06-29 17:03:04 · 206 阅读 · 0 评论 -
论证型大语言模型:促进可解释性与可质疑的决策制定
在探讨大型语言模型(LLMs)在决策支持系统中的应用时,我们需正视其面临的核心问题。这些问题主要包括理解能力的局限,即尽管LLMs在多种推理任务中展现出卓越性能,但其在自动化决策系统中的支持能力受限于其推理能力,如幻觉现象(即错误信息的生成)和逻辑不一致性,这些问题对决策的可信赖度和质量构成严重威胁。此外,LLMs在解释性和可靠性方面的不足亦不容忽视。现有的LLMs往往无法提供透明且可信的推理表示,这引发了对其可靠性和可争议性的担忧。特别是在高风险决策环境中,决策过程和结果的解释性与可靠性显得尤为关键。原创 2024-06-29 11:31:53 · 246 阅读 · 0 评论 -
知识图谱——Neo4j数据库实战
JDK 安装:https://www.oracle.com/java/technologies/javase-downloads.htmlNeo4j 安装:https://neo4j.com/download-center/ 配置好 JDK 和 Neo4j 的环境变量 在这个实例中,我们会基于发票数据创建一个知识图谱环境配置:pip install py2neo 在这里我们读取购买方、发送方的数据以及对应的交易金额。(2)结点和关系边的构建 创立购买方节点、销售方节点,原创 2024-06-27 20:40:28 · 244 阅读 · 0 评论 -
DELL:利用大语言模型(LLM)生成评论与解释,革新虚假信息检测
幻觉与事实性问题:据Kryściński等人(2020年)及其他研究所述,LLM常产生与事实不符的幻觉内容。适应新知识困难:De Cao等人(2021年)的研究揭示,LLM难以迅速适应不断更新的知识库,这在新闻领域尤为显著。针对上述挑战,论文提出的DELL框架从以下三个方面着手:(1)模拟新闻反应:考虑到社区反应与评论在虚假信息检测中的价值,如Grover等人(2022年)的研究所示,但实时用户互动数据的获取具有局限性。原创 2024-06-27 16:18:05 · 227 阅读 · 0 评论 -
知识图谱介绍及其应用领域分析
知识图谱(Knowledge Graph)乃一种精心设计的技术,旨在储存并整合交织的描述性知识信息。此技术通过构建由实体及其相互关系所组成的网络结构,实现对知识的有序组织与呈现。这些实体涵盖广泛的范畴,包括但不限于具体的物体、事件或抽象概念,它们经由多样化的关系相互连接,从而构建成一个丰富、可查询及可扩展的知识体系。原创 2024-06-26 15:37:54 · 104 阅读 · 0 评论 -
探索SoMeLVLM:面向社交媒体处理的大型视觉语言模型
在线社交媒体平台涌现出海量的文本与视觉内容,深刻揭示了人们如何交流、互动以及自我表达。随着通信技术的日新月异,越来越多的用户活跃于各类主题与兴趣社区,这使得社交媒体成为学术研究的焦点。近期,大型语言模型(LLMs)与大型视觉语言模型(LVLMs)在处理自动化任务方面展现出了卓越的能力,特别是在提示工程的助力下。然而,研究指出,即便经过广泛的实践与评估,这些通用大型模型仍无法完全替代计算社会科学(CSS)的传统研究范式,特别是在社交媒体研究中。原创 2024-06-25 14:27:10 · 263 阅读 · 0 评论 -
颠覆多跳事实验证!Causal Walk 前门调整技术引领去偏新纪元
多跳事实验证(Multi-hop Fact Verification)的目标是通过整合和推理多个证据片段来验证给定声明的真实性。然而,现有研究存在一些问题需要解决。首先,单跳推理的方法在处理多跳推理任务时存在局限性。现有的去偏方法主要集中在单跳推理任务上,无法有效处理多跳推理任务中的复杂偏差模式。其次,生成无偏的多跳事实验证实例是一个挑战。基于数据增强的方法难以生成无偏的多跳事实验证实例,而基于重新加权的方法则难以检测出复杂的偏差样本。原创 2024-06-23 16:43:07 · 93 阅读 · 0 评论 -
利用竞争智慧与大型语言模型:假新闻检测的新突破
社交媒体上的假新闻泛滥已对个人和社会造成显著影响。例如,在全球COVID-19大流行期间,一条关于疫苗严重副作用的虚假新闻导致人们对疫苗的犹豫和抵触,严重影响了疫情控制和医疗系统。虽然官方媒体和调查新闻不断澄清真相,但仅靠调查新闻并不现实,因为其劳动强度大且耗时。因此,迫切需要开发自动化方法及时检测假新闻并提供清晰的证明。之前的工作通过各种信息(如可信度、立场、传播模式、额外知识等)来学习假新闻的潜在特征,但由于其黑箱性质,无法提供公众所需的证明。原创 2024-06-23 09:21:41 · 690 阅读 · 0 评论 -
揭秘MMAdapt:如何利用AI跨领域战胜新兴健康谣言?
在紧急健康事件或话题的初期阶段,如猴痘(mpox)在2022年的爆发,常常因为缺乏及时的资源,如最新的领域知识和标注数据,使得健康相关的误信息的检测变得尤其困难。领域特定的误信息检测局限性:许多现有方法假设训练和测试数据来自相同的数据分布,专注于特定领域的误信息检测。这种假设限制了模型的通用性,因为不同健康领域在词汇使用、话题变化和写作风格等方面各有特点。领域差异性问题:即使是最近开发的一些领域适应解决方案,也主要集中在二元分类问题上,忽视了只包含部分误导内容的误信息的重要类别。原创 2024-06-22 17:20:31 · 249 阅读 · 0 评论 -
知识图谱与大模型之间的协同——THINK-ON-GRAPH
1.概述THINKON-GRAPH: DEEP ANDRESPONSIBLEREASONING OF LARGELANGUAGEMODEL ONK论文地址:1.概述大型语言模型(LLMs)在各种自然语言处理任务中表现出色,但在面对复杂知识推理任务时存在显著限制,如无法提供超出预训练阶段的专业知识或需要长逻辑链和多跳知识推理的问题。此外,LLMs缺乏责任心、可解释性和透明度,并且训练过程通常昂贵且耗时。原创 2024-06-21 17:05:09 · 70 阅读 · 0 评论 -
Graph of Thoughts——用大模型解决复杂问题
大型语言模型(LLMs)已成为人工智能领域的主导力量。然而,现有的提示方法(如链式思维(CoT)和思维树(ToT))仍存在限制,因为它们通常只能在固定的思维结构(如线性链或树形结构)内推理,这限制了模型处理更复杂推理任务的能力。为了克服现有方法的局限性并模拟人类的非线性和复杂的思维过程,文章提出了一个新的框架——“思维图”(GoT)。GoT的核心优势在于将LLM生成的信息(“LLM思维”)建模为图的顶点,而这些顶点之间的依赖关系则通过边来表示。原创 2024-06-21 17:04:45 · 81 阅读 · 0 评论 -
利用大语言模型进行事实匹配
在当今的数字化时代,错误信息的迅速扩散对公共福祉和社会信任构成了重大威胁。随着在线错误信息的日益泛滥,事实检查者进行手动验证的难度不断增加,因此传统的事实检查过程面临着巨大的挑战。手动事实检查不仅耗时且复杂,还需要从识别值得调查的声明到作出最终裁决等多个步骤。为了解决这些问题,论文提出了FACT-GPT框架,这是一种利用大型语言模型(LLMs)自动化事实检查的声明匹配阶段的技术。FACT-GPT通过生成模拟社交媒体帖子的标记数据集,提供了一个训练和微调更专业化LLMs的平台。原创 2024-06-06 20:08:25 · 66 阅读 · 0 评论 -
知识图谱抽取实战
知识图谱是一种先进的数据组织形式,它通过图数据结构来表示实体(如人、地点、概念)及其之间的复杂关系,便于机器理解和处理。这种结构化知识库允许高效的信息检索、推理和知识发现,尤其适用于处理高度关联且需要深度理解的领域,如医学。在医学领域,知识图谱被广泛应用以增强诊断准确性、优化治疗方案、加速药物研发等。具体来说,一个典型的实例是。原创 2024-05-30 17:11:54 · 293 阅读 · 0 评论 -
文本预训练模型构建实例
本次任务是一个完形填空任务,需要加载预训练模型,并在自己的数据集上进行微调。原创 2024-05-23 11:00:58 · 55 阅读 · 0 评论 -
文本摘要建模实战——从标注到训练
安装:pip install doccano配置:# Create a super user.用户名和密码自行指定# Start a web server.端口号可能被占用,重新指定一个Go to创建项目:导入数据文本摘要标注导出数据为CSV格式,结果如下。原创 2024-05-23 11:00:32 · 459 阅读 · 0 评论 -
Huggingface数据集制作方法实例
load_dataset函数支持多种文件格式,例如csv,text,json,pandas。原创 2024-05-22 20:13:54 · 185 阅读 · 0 评论 -
FakeGPT:大语言模型在虚假新闻生成、检测、解释的探索
假新闻的广泛传播对社会造成了不利影响,引发了大量关于遏制其传播的研究。作为大型语言模型(LLMs)的一个重要里程碑,ChatGPT因其出色的自然语言处理能力而备受关注。论文全面探讨了ChatGPT在生成、解释和检测假新闻方面的能力。论文使用四种提示方法生成假新闻样本,并通过自我评估和人工评估证明这些样本的高质量。基于ChatGPT的解释,论文确定了九个特征来表征假新闻,并分析了这些特征在多个公共数据集中的分布。原创 2024-05-22 14:22:26 · 184 阅读 · 0 评论 -
命名实体识别实战——从数据标注到模型
命名实体识别(Named Entity Recognition,简称NER)的主要目标是从文本中识别出具有特定意义的实体,如人名、地名、组织机构名、时间、数量等,并将其归类到预定义的类别中。这一过程确实可以被视作是一个在NER任务中,每个token都被分配一个标签,这些标签代表了该token所属的命名实体类型。例如,在句子“李华明天将飞往纽约参加联合国会议”中,NER系统需要识别出“李华”为人名、“明天”为时间表达式、“纽约”为地理位置、“联合国”为组织机构。原创 2024-05-22 14:22:04 · 768 阅读 · 2 评论 -
TELLER:可解释的、可控的、通用的虚假新闻检测框架
尽管现有的深度学习方法在预测准确性方面取得了一定的成功,但它们因神经网络的黑箱性质而缺乏透明性,并且在面对与训练数据分布不同的未见数据时泛化能力有限。此外,与LLMs的整合可能导致不可控的风险,如幻觉和社会影响。为了应对这些挑战,论文提出了TELLER框架,它优先考虑了假新闻检测技术的三个关键方面:可解释性、泛化能力和可控性。原创 2024-05-20 18:17:01 · 152 阅读 · 0 评论 -
利用文本图像对比模型进行虚假信息检测
社交媒体平台上新闻文章的激增,使信息获取更加便捷,但也加剧了虚假信息的传播,带来了网络和现实社会的负面影响。特别是在新冠疫情期间,虚假信息的传播引发了诸多社会问题。因此,迫切需要能够准确高效地检测虚假新闻内容的工具。传统的手工监控方式耗时耗力,而现有的自动化方法大多依赖于监督学习,但受到标注数据有限的制约。目前的研究主要集中在利用自然语言处理技术检测文本中的虚假信息,忽视了图文结合的虚假信息。Aneja等提出了COSMOS数据集,原创 2024-05-20 14:49:52 · 33 阅读 · 0 评论 -
BERT系列算法解读
从而提高模型在SQuAD、MNLI和SST-2数据集上的性能。总的来看,这些优化措施显著增强了模型的表现。原创 2024-05-19 17:14:11 · 645 阅读 · 0 评论 -
Transformer工具包基本操作实例解读
自然语言处理(NLP)致力于解锁文本数据的奥秘,使之成为计算机可理解、可操作的信息。迈入NLP的大门,首要任务是将原始文本数据转换为便于分析的形式。在中文情境中,这通常涉及分词或分字操作,即依据语言特性将连续的字符串切分成有意义的词语或单字单元。不同的语言有不同的分词方法,体现了NLP对语言特性的敏感适应。单纯的字符对于计算机而言只是抽象符号,缺乏内在含义。为让机器理解,我们需要将这些词语或字符映射到一个数值向量空间中,这个过程称为词嵌入。原创 2024-05-19 14:41:42 · 76 阅读 · 0 评论 -
Huggingface与NLP介绍解读
自然语言处理(NLP),作为人工智能的一个核心分支,旨在让计算机具备理解、解析、生成人类自然语言的能力,从而架起人与机器之间的沟通桥梁。这项技术远不止于实现简单的分类、机器翻译、情感分析、智能客服、摘要生成或阅读理解等任务,其深层次的目标是模拟并逼近人类语言学习与理解的复杂过程。如同我们人类在成长过程中,通过日常对话、广泛阅读、听取故事、参与讨论等多种情境逐步积累语言知识与运用能力,NLP技术也在尝试通过海量数据的“学习”,理解和掌握语言的细微差别、文化内涵及语境意义。原创 2024-05-17 10:53:47 · 105 阅读 · 0 评论 -
基于BERT的中文命名实体识别识别实战
通过这样的机制,CRF模型在整个序列上优化所有标签的联合概率,确保不仅是单个标签的选择合理,而且整个序列的标签分配也是全局最优的,这就体现了概率转移规则在命名实体识别中的作用。对于“李华”,CRF模型会考虑“开始位置+李华->B-PER”的发射特征以及后续位置上的标签转移概率,比如从“B-PER”转移到“I-PER”或转移到其他类型如“B-LOC”的概率。对于“大学”,由于前面是“北京”,模型会高概率地分配“大学”以“I-LOC”标签,利用先前的“B-LOC”作为上下文,这是基于状态转移概率的决策。原创 2024-05-17 09:16:45 · 1100 阅读 · 2 评论 -
基于BERT的中文情感分析实战
这里需要自定义一个数据读取代码,用于读取情感分析数据及标签,并加入到InputExample中,数据读取代码如下,类SimProcessor继承自DataProcessor类别,并提供了train/val/test数据读取的代码。预训练权重使用的谷歌官方提供的预训练权重, GLUE/BERT_BASE_DIR是项目的预训练权重,预训练权重主要包含3个部分:参数配置文件、预训练权重和预料表。注意项目中不要有中文路径。在data目录下,提供了中文情感分析的数据, 类别1代表正向情感,类别2代表负向情感。原创 2024-05-16 19:28:15 · 454 阅读 · 0 评论