自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(338)
  • 资源 (5)
  • 收藏
  • 关注

原创 AI 代理介绍与应用

记忆流(Memory Stream)是生成式代理架构中的一个组件,它是一个长期记忆模块,记录了代理的经历和与环境的交互。记忆流以自然语言的形式呈现,包含了代理的观察、行为、对话和其他与环境相关的信息(以及长期计划(Plan)和更高层次的反思(Reflect)的输出)反应和更新计划(Reacting and Updating Plans)是指代理根据当前的情境和观察到的事件来决定是否继续执行当前的长期计划,或者需要根据新的观察进行反应和更新计划。这些复杂行为和自发事件是由代理之间的互动和环境的变化所驱动的。

2023-10-21 08:51:36 487

原创 领域&私域对话数据收集与生成

我们可以将此方法类比为一种知识蒸馏的过程:具备最佳性能的超大参数通用语言模型充当老师的角色,通过生成的私域"对话历史"数据,来教导参数规模较小的私域大语言模型,让它们也能够从私域数据中受益。其中,"用户定义"是中小型企业对其用户群体的自然语言描述,"私域信息文本段落"是企业内部的文本数据承载的信息片段,"对话历史"是存储我们技术方案生成的历史对话的数据库。本方案通过利用企业内部已有的私域信息文本段落,构造对话指令并生成对话历史,从而生成可靠的对话训练数据,弥补了私域数据获取的难题。

2023-09-22 09:33:21 809

原创 开源LLM应用(ChatGLM)

由于GPU中已经有FP16 精度模型了,直接加载会显存不足。默认情况下,模型以 FP16 精度加载,运行上述代码需要大概 13GB 显存。

2023-09-18 18:48:52 304

原创 低成本的领域&私域大模型训练方法

如果我们不想给大模型做 “大手术”—— finetue 训练大模型(成本太高了 ==),毕竟我们仅仅想让大模型原先的基础上,再学习一小部分的领域或私域数据,原先大模型已经具备的知识不用怎么变动。相反,LoRA仅优化注入的、更小的低秩矩阵,从而使得训练更加高效。为了让训练最初输出的 h 的值 和 预训练大模型输出相同,B部分 参数的初始化为0。● LoRA的简单的“旁路”线性设计使得我们可以在部署时将可训练的矩阵与冻结的权重合并,(相比“串联”的添加额外模块)不会引入推理延迟。

2023-09-03 15:01:05 670

原创 国产开源大模型:ChatGLM

GLM是General Language Model的缩写,是一种通用的语言模型预训练框架。它的主要目标是通过自回归的空白填充来进行预训练,以解决现有预训练框架在自然语言理解(NLU)、无条件生成和有条件生成等任务中表现不佳的问题。具体来说,GLM通过随机遮盖文本中连续的标记,并训练模型按顺序重新生成这些遮盖的部分。这种自回归的空白填充目标使得GLM能够更好地捕捉上下文中标记之间的依赖关系,并且能够处理可变长度的空白。通过添加二维位置编码和允许任意顺序预测空白,GLM改进了空白填充预训练的性能。

2023-08-27 12:20:16 534

原创 Meta开源大模型:羊驼系列

旋转位置编码(Rotary Position Embedding,简称RoPE)是一种高效且有效的位置编码方法,用于增强(每个)自注意力机制在处理序列数据时的位置敏感度,特别适合于处理长序列和动态长度的序列。它的主要目的是稳定和加速训练过程,通过调整激活值的尺度,确保它们在一个合适的范围内变化,从而避免梯度消失或爆炸问题。总的来说,LLaMA和GPT在架构和训练过程上有一些差异,LLaMA通过一些架构修改和使用公开数据集等方法实现了与GPT相当的性能,同时具有更好的可访问性和可复现性。

2023-08-26 20:53:03 562

原创 动手为ChatGPT打造第二大脑

!text_splitter = SpacyTextSplitter(pipeline="zh_core_web_sm", chunk_size=200) # 定义分句器parser = SimpleNodeParser(text_splitter=text_splitter) # 定义节点解析器documents = SimpleDirectoryReader('data').load_data() # 读取数据。

2023-08-25 10:47:11 5496 1

原创 大语言模型的“第二大脑”

AI的“第二大脑”模式就是一种先搜索、后提示的方式。它需要事先建立一个外部索引,就像AI的“第二个大脑”。每次我们向AI提问,它会先查询这个“第二大脑”中的资料,然后再用自己的思维能力回答问题。很多在线应用,比如读论文、读书回答问题,都是基于这个模式。我们可以使用一个名为LlamaIndex的开源Python包来实现这个“第二大脑”模式,不必从头开始写代码。LlamaIndex基于LangChain的LLM模块,并允许定制底层的LLM。

2023-08-24 09:09:35 1785

原创 文本向量化

词嵌入是一种表示单词的方法,它将词汇表中的每个单词表示为一个普通的向量。不同于传统的只包含0和1的One-Hot向量,词嵌入向量是一串普通的数字。这样的向量将单词嵌入到一个数学空间中,因此称为"词嵌入"。● 如何进行词嵌入?要进行词嵌入,我们需要通过神经网络进行训练,训练得到的网络权重形成的向量就是我们最终需要的词向量。● 词汇表征和语言模型自然语言处理的核心是建立语言模型,从深度学习的角度来看,我们可以将自然语言处理的语言模型视为一个监督学习问题。

2023-08-23 14:47:29 881 2

原创 LLM及其API的应用(ChatGPT与OpenAI API)

【参考资料】

2023-08-20 10:39:24 1308

原创 大模型行业案例之生物医学:“达尔文”领域大模型

达尔文大模型 指令微调(instruction tuning)训练,除了进行常规的指令(如问答、摘要等),我们基于赛业生物在多年在生物领域技术的沉淀,构造了更丰富的生物垂类领域指令进行训练。“火山方舟” 包含模型广场、模型体验、模型训练推荐以及模型应用的功能,其使命是加速大模型和大算力的应用落地,加快大模型在各行业发挥商业价值。带给大家一个好消息,“达尔文”大模型将入驻火山引擎大模型生态,上架至“火山方舟”的模型广场,补全火山引擎大模型生态的生物医疗领域,并供大家使用与反馈。

2023-07-09 15:26:57 714

原创 【stability.ai】SDXL:改进高分辨率图像合成的潜在扩散模型

近年来,深度生成建模在自然语言、音频和视觉媒体等各个数据领域取得了巨大的突破。本文将重点关注视觉媒体领域,并揭示了SDXL(Stable Diffusion的极大改进版本)的出现。Stable Diffusion是一种潜在的文本到图像扩散模型(DM),为3D分类、可控图像编辑、图像个性化、合成数据增强、图形用户界面原型设计等一系列最新进展提供了基础。令人惊讶的是,这些应用的范围非常广泛,涵盖了音乐生成和从fMRI脑部扫描中重建图像等领域。

2023-07-08 13:27:30 724

原创 【斯坦福】FrugalGPT: 如何使用大型语言模型,同时降低成本并提高性能

因此,我们需要一种方法来降低LLM的推理成本,同时保持良好的性能。实验结果显示,FrugalGPT可以在与最佳单个LLM相当的性能下,降低高达98%的推理成本。这些结果表明,FrugalGPT是一种可行的方法,可以在降低成本的同时提高性能。作者强调了LLM API的异构定价结构以及使用最大的LLM所带来的巨大财务、环境和能源影响。LLM近似旨在创建更简单、更便宜的LLM,以在特定任务上与强大但昂贵的LLM相匹配。通过降低模型的复杂性和规模,可以降低成本,同时保持合理的性能。

2023-06-29 13:35:37 1200

原创 大模型行业案例之生物医学:生物科学大模型调研

大模型:大模型通常指的是参数量较大、层数较深的机器学习模型,例如深度神经网络。这些模型具有大量的可训练参数,通过在大规模数据集上进行训练,能够更好地捕捉数据中的复杂模式和特征。结论:工业界和生物相关的大自然语言模型都**偏向医疗行业(用于问诊等),没有生物科学知识(如基因组学等)相关的。**也就是说,类似于定位的生物科学-大自然语言模型,目前工业界是没有的。大语言模型:大语言模型是指具有大规模训练参数的语言序列处理模型。情感分析:分析文本中的情感倾向,如正面、负面、中性等。的能力的大语言模型。

2023-06-29 11:36:37 1138

原创 AI绘画模型之:扩散模型原理

扩散模型的灵感来自热力学,用通俗的话来解释就是,想象一下你在一杯清水中滴入一滴有色的碘伏,然后观察这杯水发生的情况。你会发现,碘伏开始逐渐在水中扩散开来,最终整杯水都会变成有色。这就是扩散,它代表了从有序到混乱的过程。就像你滴入红色液体到清水中,颜色会逐渐扩散开,最终整杯水都变成红色一样。这个过程可以用来描述很多现象,如颜色、热量或分子的传播,都会经历扩散过程,从有序到混合的状态。AI绘画中的扩散模型类似于下面的例子:想象一张图片,开始时它很清晰,然后逐渐添加一些随机噪声,使得图像变得模糊和混乱。

2023-04-20 16:00:10 1421 1

原创 【简单、高效、性能好】SetFit:无需Prompts的高效小样本学习

由于 SetFit 使用相对较小的模型实现了高精度,因此它的训练速度非常快,而且成本要低得多。:当前的小样本微调技术需要手工制作的提示(prompts )或语言器(verbalisers)将样本转换为适合底层语言模型的格式。虽然基于比现有的少样本方法小得多的模型,但 SetFit 在各种基准测试中的表现与sota的少样本方法相当或更好。因此,训练和运行推理的速度通常快一个数量级(或更多)。由于我们的数据集有 6 个类别,我们选择的样本大小为 8,因此我们的合成数据集包含 6×8=48 个样本。

2022-11-28 18:05:09 1169

原创 【微软】【ICLR 2022】TAPEX:通过学习神经 SQL 执行器进行表预训练

在本文中,作者提出了一种新的以执行查询为核心的表格预训练方法——TAPEX(TAble Pretraining via EXecution)。通过逼近表上的正式语言的结构推理过程,实现了高效的表预训练。结构性推理过程与表的可执行性相关联,即表本身就能够支持各种推理操作(例如,对表中的一列进行求和)。特别是,TAPEX通过对语言模型(LM)进行预训练来模拟表上的SQL执行引擎的行为,来近似SQL查询的结构性推理过程。如图1-1所示,

2022-11-26 14:19:21 1127

原创 Transformers 介绍

instead!根据你的应用程序,你所使用的文本可以是法律合同、产品描述,或者完全是其他的东西。假设是客户反馈的情况下,你可能会想知道这些反馈是积极的还是消极的。这个任务被称为情绪分析,是我们将在第二章中探讨的更广泛的文本分类主题的一部分。现在,让我们来看看如何使用 Huggingface Transformers 从我们的文本中提取情感。文本摘要的目标是**以一个长文本作为输入,并生成一个包含所有相关事实的简短版本。**这是一项比之前的任务要复杂得多的任务,因为它需要模型来生成连贯的文本。

2022-11-24 11:27:37 1399

原创 【ACL 2022】用于多标签文本分类的对比学习增强最近邻机制

多标签文本分类(MLTC)是自然语言处理中的一项基本且具有挑战性的任务。以往的研究主要集中在学习文本表示和建模标签相关性上。然而,在预测特定文本的标签时,通常忽略了现有的类似实例中的丰富知识。为了解决这一问题,作者提出了一个k最近邻(kNN)机制,该机制检索几个相邻实例并用它们的标签值作为模型的输出。此外,作者设计了一个多标签对比学习目标,使模型学习到kNN的分类过程,并提高了在推理过程中检索到的相邻实例的质量。

2022-11-20 17:30:01 1882

原创 【NAACL 2021】RCI:在基于 Transformer 的表格问答中行和列语义捕获

RCI使用文本匹配来定位答案所在的行或者列,其中一个文本是Question,另一个文本是行或者列。RCI Interaction:序列化文本会使用[CLS]和[SEP]将问题与行或者列文本进行拼接,然后这个序列对被输入至ALBERT。最终[CLS] 隐藏层的输出用于后面的线性层和softmax,判断行或者列是否包含答案。问题的向量表示和列或者行的向量表示会先被分别算出来。然后,这两个向量按如上图所示的方式进行拼接,并使用带有softmax层的全连接层对拼接后的向量进行分类。

2022-10-23 16:52:26 733

原创 【2022 MS MARCO】【阿里】HLATR:基于混合列表感知Transformer重排的多阶段文本检索增强 ( .feat PRM:个性化的推荐重排)

论文: 《HLATR: Enhance Multi-stage Text Retrieval with Hybrid List Aware Transformer Reranking》由于数据规模和计算资源的限制,当前文本检索系统通常遵循召回-排序范式,召回和精排模型通常被实例化为我们在《【NAACL 2021】AugSBERT:用于改进成对句子评分任务的 Bi-encoder 数据增强方法》中介绍到的 Bi-Encoder 和 Cross-Encoder。虽然在检索系统中,召回和排序模型是紧密关联的,但

2022-09-03 17:29:14 882

原创 Prompt Learning——Template

template(可以是特定的文本tokens或抽象的新的tokens ,唯一的区别是初始化)是提示学习框架中最重要的模块之一。请注意,hard template 将使用模型进行优化,而 soft token 将被单独优化。初始化也是有区别的:注意如果两个soft token具有相同soft_ids的 ,它们将共享嵌入:如果尝试定义 10000 个 soft token,可以使用关键词 duplicate:如果您尝试定义 10000 个相同的soft token,可以使用关键词 same:Post

2022-07-05 19:10:12 932

原创 【ICLR 2022】Trans-Encoder:通过自蒸馏和相互蒸馏的无监督句对建模

自然语言处理和信息检索中的许多任务都涉及句子的成对比较——例如,句子相似性检测、释义识别、问答蕴涵和文本蕴涵。最准确的句子比较方法是所谓的cross-encoding,它在逐对的基础上将句子相互映射。然而,训练cross-encoders 器需要带标注的训练数据,收集这些数据是劳动成本很高。我们如何为句子对任务训练完全无监督的模型,从而消除对数据标注的需求呢?

2022-07-01 16:59:28 593

原创 【NAACL 2022】GPL:用于密集检索的无监督域自适应的生成伪标记

负例挖掘:接下来,对于生成query “What is Python”,我们从语料库中挖掘负例passage,即与query 相似但用户认为不相关的 passage。训练:一旦我们有了三元组 (generated query, positive passage, mined negative passage) 和对 (query, positive) 、 (query, negative) 的评分的Cross-Encoder,我们就可以开始使用。训练的时间越长,你的模型就越好。

2022-06-28 19:18:25 635

原创 【NAACL 2021】AugSBERT:用于改进成对句子评分任务的 Bi-encoder 数据增强方法

论文地址:https://arxiv.org/abs/2010.08240目前,最先进的 NLP 架构模型通常重用在 Wikipedia 和 Toronto Books Corpus 等大型文本语料库上预训练的 BERT 模型作为基线。通过对深度预训练的 BERT 进行微调,发明了许多替代架构,例如 DeBERT、RetriBERT、RoBERTa ……它们对各种语言理解任务的基准进行了实质性改进。在 NLP 中的常见任务中,成对句子评分在信息检索、问答、重复问题检测或聚类等方面有广泛的应用。

2022-06-21 16:53:33 1013

原创 新晋算法工程师如何快速进入职业状态?

在工作中不像在学校,往往解决的是一个定义得非常清晰的通用问题。在工作中,由于产品和业务需求多样复杂,这就要求我们必须花精力去理解产品形态、业务问题。**在解决问题之前,我们要先考虑清楚这个产品功能模块的输入和输出是什么?这个业务问题可以怎么抽象建模成一个算法问题?**准确定义问题就已经成功了大半。学生时代以上课学习为主,在工作中我们需要能够独当一面来解决问题的机会。在解决问题的过程中,合格的工程师应该能够独立规划、主动思考、自主沟通。

2022-05-17 20:54:31 212

原创 语音识别文本纠错模型

文本纠错任务是一项NLP基础任务,其输入是一个可能含有错误字词的句子,输出是一个正确的中文句子。ASR(语音识别)文本的错误类型很多,有多字、少字、错别字、同音近音字等等。

2022-03-29 18:43:53 5844

原创 预训练语言模型介绍合辑(更新中)

RoBERTa 也对 batch 大小进行了实验,原始的 BERT 使用的 batch = 256,训练步数为 1M,这与 batch = 2K,训练步数 125K 的计算量是一样的,与 batch = 8K 和训练步数为 31K 也是一样的。针对bert存在的第二个问题,ERNIE对NSP任务做了修改,输入层使用多轮对话来替代句子对分类任务。比如一句话:‘北京是中国的首都,是一座美丽的城市’,在bert的随机mask LM任务中,可能是把‘京’mask掉在再做预测,这样就把‘北京’两个字的语义割裂了。

2022-03-24 15:21:54 1786

原创 阿里热线小蜜——实时语音对话场景下的算法实践

在今天的人机交互中,语音语义技术扮演着关键的角色。其准确性直接影响用户体验,精准的语音识别带来更加流畅的交互,从而实现更好的用户满意度。挑战一:口语化用户在语音交互中的表述通常充满了模糊、冗长和不连贯的特点,还可能受到自然环境和噪声干扰。这使得语音识别更加困难。挑战二:多模态与文本不同,语音对话不仅仅包含文字信息,还涵盖了语气、情绪、背景环境等更多的元素。这些信息对于理解用户意图至关重要。挑战三:双工化语音对话通常不是简单的问答形式,而是复杂的双向交流。

2022-03-20 17:55:08 4241

原创 解读:【美团】智能客服实践

客服结束一通咨询后,需进行背景、诉求、处理结果的填写。智能的会话摘要,可以提升客服坐席工作效率,改善其办公体验。作者的方案进行了如下的演进:效果如下:我理解,在这个业务场景下,其实用抽取式摘要是不太合理的。抽取式摘要适用于新闻摘要的场景,但是对话摘要的摘要和原文的文本表达方式是大相径庭的。还有相比单纯的文本摘要,对话摘要更加合适结合半结构化模板来做。因为客服咨询对话核心要点是固定的,如:背景、诉求、处理结果等。而且,这样的摘要更适用于客服后续跟进时进行查阅。

2022-02-05 14:27:28 2075

原创 rasa 介绍文档

Rasa Open Source: NLU (理解语义) + Core (决定对话中每一步执行的actions)Rasa SDK: Action Server (调用自定义的 actions)Rasa NLU理解用户的对话,提取出感兴趣的信息 (如意图分类、实体提取等),以pipeline的方式处理用户对话,在config.yml中配置。Rasa Core根据NLU输出的信息、以及Tracker记录的历史信息,得到上下文的语境:预测用户当前最可能表达的意图;

2022-01-25 15:34:18 2763

原创 解读:【小爱同学】智能问答系统

上述挖掘的都是比较简单的模型。如“世界之最”的问题。首先意图判断:query是否包含世界之最支持实体类型,以及是否包含最大、最小、第一、第二等触发词。作者基于结构化词条、问答论坛的数据,来进行模板挖掘的。当问答论坛数据中,问题包含实体,答案包含属性值,就可以以此构造解析模板。模型可能对于某些类的预测比较差,而这些类在随机负采样中未能覆盖到。“圆柱体的体积怎么算”- “圆柱体的面积怎么算”增强结果,得到正样本:Q1’、Q2’找到Q2’,与Q2相似度 < 0.3。增强结果,得到负样本:Q1’、Q2’

2022-01-20 14:33:54 4446

原创 【RASA】TED Policy:Dialogue Transformers

计算嵌入之间的差异,TED Policy最大化与目标标签的相似性并最小化与错误标签的相似性,这是一种基于Starspace算法的技术。自注意力机制发挥作用的地方:transformer 在每一轮动态访问对话历史的不同部分,然后评估和重新计算前几轮的相关性。在每个对话回合,TED Policy将3部分信息作为输入:用户消息的意图和实体、预测的先前执行的Action、槽位。当需要预测下一个系统动作时,所有可能的系统动作根据它们的相似度进行排序,并选择相似度最高的动作。那这3部分是如何特征化的呢?

2021-12-16 18:08:58 697

原创 【RASA】DIET:Dual Intent and Entity Transformer

最近工作中使用到rasa,其nlu部分有一个rasa自己提出的DIETClassifier框架组建,可用于意图分类与实体识别。今天有空,就来研究下它~论文地址:https://github.com/RasaHQ/DIET-paper简介先总结下DIET出彩的地方:DIET是一种用于意图分类和实体识别的多任务体系结构。它能够以即插即用的方式结合语言模型的预训练单词嵌入,并将它们与单词和字符级 n-gram 稀疏特征结合起来。实验表明,即使没有预训练的嵌入,仅使用单词和字符级 n-gram 稀疏特

2021-11-28 10:47:25 1465 2

原创 搜索与问答——【NeurIPS 2021】BEIR:信息检索模型零样本评估的异构基准

论文中,作者提出了一种无需训练数据,即可学习(或适应)非对称语义搜索模型的方法。在非对称语义搜索中,用户提供一个(简短的)查询,如一些关键字或问题。然后我们想要检索提供答案的更长的文本段落。

2021-11-25 12:00:44 1304

原创 【PolyAI】【EMNLP 2020 Findings】ConveRT:来自 Transformer 的高效准确的会话表示

论文《ConveRT: Efficient and Accurate Conversational Representations from Transformers》地址:https://arxiv.org/abs/1911.03688作者在pretrain(Reddit 数据)+fine-tune 的方式的基础上提出了一个更轻量级的预训练回复选择模型 ConveRT,并且模型还可以引入了更多的对话历史信息。另外,模型学习的句子编码可以 transfer 到其他对话任务(eg.意图识别)。

2021-11-23 17:07:14 2190

原创 解读:【腾讯】基于兴趣点图谱的内容理解

单只用“分类、实体、关键词”进行召回,容易导致信息蚕房。如果我们能。

2021-11-14 13:46:01 1122

原创 搜索与问答——【EMNLP 2021】TSDAE:基于Transformer的顺序去噪自动编码器

TSDAE(Transformer-based Sequential Denoising Auto-Encoder)模型使用纯句子作为训练数据来无监督训练句子向量。在训练期间,TSDAE 将加了噪声的句子编码为固定大小的向量,并要求decoder从这个句子表征中重建原始句子。为了获得良好的重建质量,必须在encoder的句子向量中很好地捕获语义。在后续推理时,我们只使用encoder来创建句子向量。架构如下图所示:encoder部分就是将带噪音的文本进行编码。

2021-09-16 17:13:56 1235

原创 【EMNLP 2021】SimCSE:句子嵌入的简单对比学习 && 【CVPR 2021】理解对比学习损失函数及温度系数

SimCSE(Simple Contrastive Learning of Sentence Embeddings)是一种简单在没有监督训练数据的情况下训练句子向量的对比学习方法。这个方法是对同一个句子进行两次编码。由于在 Transformer 模型中使用了 dropout,两个句子表征的位置将略有不同。目标函数 Multiple Negatives Ranking Loss:其中,z和z’ 是两个不同的dropout随机掩码。

2021-09-16 10:34:25 1794

原创 【ICLR 2021】CT:具有对比张力的语义重调

论文《SEMANTIC RE-TUNING WITH CONTRASTIVE TENSION》地址:https://openreview.net/pdf?之前讲到的是用有监督的方式进行句子向量的匹配等任务。那当没有标注数据的时候,如何训练出更好的句子向量呢?本文作者提出了“对比张力”(CONTRASTIVE TENSION)的对比学习方案——CT:如上图所示,在训练期间,CT 构建了两个独立的编码器(“Model1”和“Model2”),它们共享初始参数以对一对句子进行编码。

2021-09-15 21:06:35 688 2

SMP2020微博情绪分类技术评测数据集

SMP2020微博情绪分类技术评测数据集 本次技术评测使用的标注数据集由哈尔滨工业大学社会计算与信息检索研究中心提供,原始数据源于新浪微博,由微热点大数据研究院提供,数据集分为两部分。     第一部分为通用微博数据集,该数据集内的微博内容是随机获取到微博内容,不针对特定的话题,覆盖的范围较广。     第二部分为疫情微博数据集,该数据集内的微博内容是在疫情期间使用相关关键字筛选获得的疫情微博,其内容与新冠疫情相关。     因此,本次评测训练集包含上述两类数据:通用微博训练数据和疫情微博训练数据,相对应的,测试集也分为通用微博测试集和疫情微博测试集。参赛成员可以同时使用两种训练数据集来训练模型。     每条微博被标注为以下六个类别之一:neutral(无情绪)、happy(积极)、angry(愤怒)、sad(悲伤)、fear(恐惧)、surprise(惊奇)。     通用微博训练数据集包括27,768条微博,验证集包含2,000条微博,测试数据集包含5,000条微博。     疫情微博训练数据集包括8,606条微博,验证集包含2,000条微博,测试数据集包含3,000

2022-12-29

jblas-1.2.4-SNAPSHOT

里MLlib库需要依赖[jblas线性代数库](http://jblas.org/),如果大家编译jblas的jar包有问题,可以获取。把jar包加到lib文件夹后,记得在spark-env.sh添加配置

2016-06-26

Spark机器学习文本处理数据集

为了说明概念,我们将使用一个非常有名的数据集,叫作20 Newsgroups;这个数据集一般用来做文本分类。这是一个由20个不同主题的新闻组消息组成的集合,有很多种不同的数据格式。对于我们的任务来说,可以使用按日期组织的数据集。

2016-06-20

Spark机器学习推荐模型数据集

我们将使用推荐引擎中使用的电影打分数据集,这个数据集主要分为三个部 分:第一个是电影打分的数据集(在u.data文件中), 第二个是用户数据(u.user),第三个是电影数据(u.item)。除此之外,我们从题材文件中获取了每个电影的题材(u.genre)。

2016-06-18

Spark机器学习回归模型数据集

为了阐述本章的一些概念,我们选择了bike sharing数据集做实验。这个数据集记录了bike sharing系统每小时自行车的出租次数。另外还包括日期、时间、天气、季节和节假日等相关信息。

2016-06-15

Spark机器学习分类模型的数据集

考虑到推荐模型中的 MovieLens 数据集和分类问题无关,本章将使用另外一个数据集。这个 数据集源自 Kaggle 比赛,由 StumbleUpon 提供。比赛的问题涉及网页中推荐的页面是短暂(短暂 存在,很快就不流行了)还是长久(长时间流行)。

2016-06-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除