自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(48)
  • 资源 (3)
  • 收藏
  • 关注

原创 Cypher常用语句

match (n : Person) - [:HAS_PHONE] -> (p : Phone) where n.name="姓名6" return n,p limit 10 查询Person的name为"姓名6"和Phone关系为HAS_PHONE的节点。match (n : Person) - [:HAS_PHONE] -> (p : Phone) return n,p limit 10 查询Person和Phone关系为HAS_PHONE的节点。1.match(相当于SQL的select)

2024-08-15 12:03:23 119

原创 Stanford CoreNLP安装及使用

处理中文还需要下载中文的模型jar文件,然后放到stanford-corenlp-full-2018-02-27根目录下即可将下载下来的解压并将下载中文的jar文件stanford-chinese-corenlp-2016-10-31-models.jar放到该目录下。

2024-08-08 10:51:36 327

原创 论文阅读 -《N-ary Relation Extraction using Graph State LSTM》

跨句n元关系提取是在多个句子中检测n个实体间关系的自然语言处理任务。

2024-08-01 11:43:03 686

原创 论文阅读-《Cross-Sentence N-ary Relation Extraction with Graph LSTMs》

文章介绍了一种基于图长短期记忆网络的通用关系抽取框架,该框架能够处理跨越多个句子的n元关系抽取任务。与传统的单句二元关系抽取相比,这种框架可以整合句内和句间的多种依赖关系,如顺序、句法和话语关系,为实体提供了鲁棒的上下文表示。在精准医疗领域的两个重要应用场景中,该框架不仅在使用传统监督学习和远程监督方面表现出有效性,而且在多任务学习中显著提高了抽取准确率。跨句子抽取进一步扩展了知识库的规模。此外,对不同LSTM方法的深入分析为理解语言分析在提高抽取准确率中的作用提供了有价值的见解。

2024-07-31 17:07:07 924

原创 论文阅读-《Distant Supervision for Relation Extraction beyond the Sentence Boundary》

文章提出了一种新的方法,用于在远程监督下进行跨句子的关系抽取。这种方法利用图表示来整合依赖和话语关系,以统一建模句子内和跨句子的关系。通过从图中提取多条路径上的特征,提高了模型在处理语言变化和分析错误时的准确性和鲁棒性。实验结果表明,该方法在精准医疗领域的关系抽取任务中表现出色,使用较小的知识库和未标记的生物医学研究文章文本,就能学习到一个准确的抽取器。与现有方法相比,新方法在保持相似精确度的同时,能够提取出更多的关系,显示了跨句子关系的重要性和新方法的有效性。

2024-07-29 23:31:58 725 1

原创 doccano安装与使用

(1)创建虚拟环境(2)安装doccano(3)doccano初始化。

2024-07-28 17:55:07 226

原创 昇思25天训练营Day27 - Diffusion扩散模型

如果将Diffusion与其他生成模型(如Normalizing Flows、GAN或VAE)进行比较,它并没有那么复杂,它们都将噪声从一些简单分布转换为数据样本,Diffusion也是从纯噪声开始通过一个神经网络学习逐步去噪,最终得到一个实际图像。Diffusion对于图像的处理包括以下两个过程:我们选择的固定(或预定义)正向扩散过程 𝑞 :它逐渐将高斯噪声添加到图像中,直到最终得到纯噪声一个学习的反向去噪的扩散过程 𝑝𝜃 :通过训练神经网络从纯噪声开始逐渐对图像去噪,直到最终得到一个实际的图像。

2024-07-25 11:00:32 642

原创 昇思25天训练营Day26 - DCGAN生成漫画头像

在下面的教程中,我们将通过示例代码说明DCGAN网络如何设置网络、优化器、如何计算损失函数以及如何初始化模型权重。在本教程中,使用的共有70,171张动漫头像图片,图片大小均为96*96。

2024-07-24 10:07:39 1017

原创 昇思25天训练营Day25 - CycleGAN图像风格迁移互换

CycleGAN(Cycle Generative Adversarial Network) 即循环对抗生成网络,来自论文。该模型实现了一种在没有配对示例的情况下学习将图像从源域 X 转换到目标域 Y 的方法。该模型一个重要应用领域是域迁移(Domain Adaptation),可以通俗地理解为图像风格迁移。

2024-07-23 10:21:45 539

原创 昇思25天训练营Day24 - Vision Transformer图像分类

近些年,随着基于自注意(Self-Attention)结构的模型的发展,特别是Transformer模型的提出,极大地促进了自然语言处理模型的发展。由于Transformers的计算效率和可扩展性,它已经能够训练具有超过100B参数的空前规模的模型。ViT则是自然语言处理和计算机视觉两个领域的融合结晶。在不依赖卷积操作的情况下,依然可以在图像分类任务上达到很好的效果。本案例完成了一个ViT模型在ImageNet数据上进行训练,验证和推理的过程,其中,对关键的ViT模型结构和原理作了讲解。

2024-07-22 10:23:49 827

原创 昇思25天训练营Day23 - SSD目标检测

SSD,全称Single Shot MultiBox Detector,是Wei Liu在ECCV 2016上提出的一种目标检测算法。使用Nvidia Titan X在VOC 2007测试集上,SSD对于输入尺寸300x300的网络,达到74.3%mAP(mean Average Precision)以及59FPS;对于512x512的网络,达到了76.9%mAP ,超越当时最强的Faster RCNN(73.2%mAP)。具体可参考论文[1]。

2024-07-21 16:04:47 576

原创 昇思25天训练营Day22 - ShuffleNet图像分类

ShuffleNetV1是旷视科技提出的一种计算高效的CNN模型,和MobileNet, SqueezeNet等一样主要应用在移动端,所以模型的设计目标就是利用有限的计算资源来达到最好的模型精度。ShuffleNetV1的设计核心是引入了两种操作:Pointwise Group Convolution和Channel Shuffle,这在保持精度的同时大大降低了模型的计算量。因此,ShuffleNetV1和MobileNet类似,都是通过设计更高效的网络结构来实现模型的压缩和加速。

2024-07-20 13:10:49 831

原创 昇思25天训练营Day21 - ResNet50图像分类

ResNet50网络是2015年由微软实验室的何恺明提出,获得ILSVRC2015图像分类竞赛第一名。在ResNet网络提出之前,传统的卷积神经网络都是将一系列的卷积层和池化层堆叠得到的,但当网络堆叠到一定深度时,就会出现退化问题。下图是在CIFAR-10数据集上使用56层网络与20层网络训练误差和测试误差图,由图中数据可以看出,56层网络比20层网络训练误差和测试误差更大,随着网络的加深,其误差并没有如预想的一样减小。

2024-07-19 10:09:14 1046

原创 昇思25天训练营Day20 - ResNet50迁移学习

普遍的做法是,在一个非常大的基础数据集上训练得到一个预训练模型,然后使用该模型来初始化网络的权重参数或作为固定特征提取器应用于特定的任务中。开始训练模型,与没有预训练模型相比,将节约一大半时间,因为此时可以不用计算部分梯度。,数据集中的图像来自于ImageNet,每个分类有大约120张训练图像与30张验证图像。使用固定特征进行训练的时候,需要冻结除最后一层之外的所有网络层。对获取到的图像及标签数据进行可视化,标题为图像对应的label名称。接口下载数据集,并将下载后的数据集自动解压到当前目录下。

2024-07-18 10:26:32 556

原创 昇思25天训练营Day19 - FCN图像语义分割

FCN主要用于图像分割领域,是一种端到端的分割方法,是深度学习应用在图像语义分割的开山之作。通过进行像素级的预测直接得出与原图大小相等的label map。因FCN丢弃全连接层替换为全卷积层,网络所有层均为卷积层,故称为全卷积网络。全卷积神经网络主要使用以下三种技术:卷积化(Convolutional)使用VGG-16作为FCN的backbone。VGG-16的输入为224*224的RGB图像,输出为1000个预测值。VGG-16只能接受固定大小的输入,丢弃了空间坐标,产生非空间输出。

2024-07-17 10:35:20 702

原创 昇思25天训练营Day18 - 基于MobileNetv2的垃圾分类

MobileNet网络是由Google团队于2017年提出的专注于移动端、嵌入式或IoT设备的轻量级CNN网络,相比于传统的卷积神经网络,MobileNet网络使用深度可分离卷积(Depthwise Separable Convolution)的思想在准确率小幅度降低的前提下,大大减小了模型参数与运算量。并引入宽度系数 α和分辨率系数 β使模型满足不同应用场景的需求。

2024-07-16 10:28:22 552

原创 昇思25天训练营Day17 - K近邻算法实现红酒聚类

K近邻算法(K-Nearest-Neighbor, KNN)是一种用于分类和回归的非参数统计方法,最初由 Cover和Hart于1968年提出(Cover等人,1967),是机器学习最基础的算法之一。它正是基于以上思想:要确定一个样本的类别,可以计算它与所有训练样本的距离,然后找出和该样本最接近的k个样本,统计出这些样本的类别并进行投票,票数最多的那个类就是分类的结果。KNN的三个基本要素:K值,一个样本的分类是由K个邻居的“多数表决”确定的。K值越小,容易受噪声影响,反之,会使类别之间的界限变得模糊。

2024-07-15 10:23:58 732

原创 昇思25天训练营Day16 - 基于MindNLP+MusicGen生成自己的个性化音乐

与传统方法不同,MusicGen采用单个stage的Transformer LM结合高效的token交织模式,取消了多层级的多个模型结构,例如分层或上采样,这使得MusicGen能够生成单声道和立体声的高质量音乐样本,同时提供更好的生成输出控制。MusicGen不仅能够生成符合文本描述的音乐,还能够通过旋律条件控制生成的音调结构。MusicGen是来自Meta AI的Jade Copet等人提出的基于单个语言模型(LM)的音乐生成模型,能够根据文本描述或音频提示生成高质量的音乐样本,相关研究成果参考论文《

2024-07-14 13:03:18 642

原创 py2neo常用语句

Neo4j服务器默认的端口号就是7474,所以本地的主机就是"默认的用户名密码都是neo4j,

2024-07-12 16:37:18 141

原创 昇思25天训练营Day15 - MindNLP ChatGLM-6B StreamChat

'MindSpore 是一个人工智能系统,旨在创建具有思考能力的自主机器人。MindSpore 的核心技术是 GPT(Generative Pretrained Transformer),这是一种可以学习如何生成文本的深度学习模型。'MindSpore 是由中国人工智能公司 DeepMind 开发的一款人工智能操作系统,旨在构建智能体。它采用了一种类似于神经网络的技术,通过将大量的数据输入到系统中,让系统自己学习并生成新的策略,从而实现类似于人类的智能决策。[('你好', '你好👋!

2024-07-12 11:34:52 244

原创 Neo4j安装

例如D:\SoftInstall\ToolSoft\neo4j-community-5.21.2,要指向解压的路径。编辑系统变量区的Path,点击编辑,新建一条,然后输入。1.安装jdk,Neo4j 3.0需要jdk8,2.3.0之前的版本建议jdk7。Neo4j最新版本5.21.2,对应jdk版本17。4.使用 :打开cmd,在命令行处输入。2.将下载的zip文件解压到合适路径。出现这个界面即为安装成功。然后会提示更改密码。

2024-07-11 22:54:08 999

原创 昇思25天训练营Day13 - 基于MindSpore通过GPT实现情感分类

将训练集以7:3比例分为训练集和验证集。加载预训练模型,设置模型参数。

2024-07-10 11:12:25 292

原创 昇思25天训练营Day14 - 文本解码原理

Beam search通过在每个时间步保留最可能的 num_beams 个词,并从中最终选择出概率最高的序列来降低丢失潜在的高概率序列的风险。缺点: 错过了隐藏在低概率词后面的高概率词,如:dog=0.5, has=0.9!按照贪心搜索输出序列("The","nice","woman") 的条件概率为:0.5 x 0.4 = 0.2。选出概率最大的 K 个词,重新归一化,最后在归一化后的 K 个词中采样。增加高概率单词的似然并降低低概率单词的似然。将出现过的候选词的概率设置为 0。缺点:生成文本不连续。

2024-07-10 10:42:21 847

原创 昇思25天训练营Day12 - 基于MindSpore的GPT2文本摘要

数据集加载本次实验使用的是nlpcc2017摘要数据,内容为新闻正文及其摘要,总计50000个样本。5000数据预处理因GPT2无中文的tokenizer,我们使用BertTokenizer替代。21128。

2024-07-09 22:39:36 778

原创 昇思25天训练营Day11 - 基于 MindSpore 实现 BERT 对话情绪识别

BERT全称是来自变换器的双向编码器表征量(Bidirectional Encoder Representations from Transformers),它是Google于2018年末开发并发布的一种新型语言模型。与BERT模型相似的预训练语言模型例如问答、命名实体识别、自然语言推理、文本分类等在许多自然语言处理任务中发挥着重要作用。模型是基于Transformer中的Encoder并加上双向的结构,因此一定要熟练掌握Transformer的Encoder的结构。

2024-07-08 11:02:41 1124

原创 昇思25天训练营Day10 - RNN实现情感分类

情感分类是自然语言处理中的经典任务,是典型的分类问题。输入: This film is terrible正确标签: Negative预测标签: Negative输入: This film is great正确标签: Positive预测标签: Positive最后我们设计一个预测函数,实现开头描述的效果,输入一句评价,获得评价的情感分类。将输入句子进行分词;使用词表获取对应的index id序列;index id序列转为Tensor;送入模型获得预测结果;打印输出预测结果。

2024-07-07 21:35:56 786

原创 昇思25天训练营Day9 - LSTM+CRF序列标注

¶序列标注指给定输入序列,给序列中每个Token进行标注标签的过程。序列标注问题通常用于从文本中进行信息抽取,包括分词(Word Segmentation)、词性标注(Position Tagging)、命名实体识别(Named Entity Recognition, NER)等。输入序列清华大学座落于首都北京输出标注BIIIOOOOOBI如上表所示,清华大学和北京是地名,需要将其识别,我们对每个输入的单词预测其标签,最后根据标签来识别实体。

2024-07-06 22:25:08 1128

原创 昇思25天训练营Day8 -使用静态图加速

AI编译框架分为两种运行模式,分别是动态图模式以及静态图模式。MindSpore默认情况下是以动态图模式运行,但也支持手工切换为静态图模式。

2024-07-05 10:42:06 881

原创 昇思25天训练营Day7-模型保存与加载

上一章节主要介绍了如何调整超参数,并进行网络模型训练。在训练网络模型的过程中,实际上我们希望保存中间和最后的结果,用于微调(fine-tune)和后续的模型推理与部署,本章节我们将介绍如何保存与加载模型。MindIR同时保存了Checkpoint和模型结构,因此需要定义输入Tensor来获取输入shape。除Checkpoint外,MindSpore提供了云侧(训练)和端侧(推理)统一的。是未被加载的参数列表,为空时代表所有参数均加载成功。要加载模型权重,需要先创建相同模型的实例,然后使用。

2024-07-04 10:58:29 127

原创 昇思25天训练营Day6-模型训练

¶从网络构建中加载代码,构建一个神经网络模型。nn.ReLU(),nn.ReLU(),超参(Hyperparameters)是可以调整的参数,可以控制模型训练优化的过程,不同的超参数值可能会影响模型训练和收敛速度。目前深度学习模型多采用批量随机梯度下降算法进行优化,随机梯度下降算法的原理如下:公式中,𝑛𝑛是批量大小(batch size),ηη是学习率(learning rate)。另外,𝑤𝑡𝑤𝑡为训练轮次𝑡𝑡中的权重参数,∇𝑙∇𝑙为损失函数的导数。

2024-07-02 11:27:13 921

原创 昇思25天训练营Day5-函数式自动微分

神经网络的训练主要使用反向传播算法,模型预测值(logits)与正确标签(label)送入损失函数(loss function)获得loss,然后进行反向传播计算,求得梯度(gradients),最终更新至模型参数(parameters)。自动微分主要解决的问题是将一个复杂的数学运算分解为一系列简单的基本运算,该功能对用户屏蔽了大量的求导细节和过程,大大降低了框架的使用门槛。前述章节主要根据计算图对应的函数介绍了MindSpore的函数式自动微分,但我们的神经网络构造是继承自面向对象编程范式的。

2024-07-01 23:18:07 903

原创 昇思25天训练营Day4-网络构建

当我们定义神经网络时,可以继承nn.Cell类,在__init__方法中进行子Cell的实例化和状态管理,在construct方法中实现Tensor操作。nn.ReLU(),nn.ReLU(),构建完成后,实例化Network对象,并查看其结构。

2024-06-30 23:00:50 590

原创 昇思25天训练营Day3-数据变换

通常情况下,直接加载的原始数据并不能直接送入神经网络进行训练,此时我们需要对其进行数据预处理。图像的每个像素将根据这两个参数进行调整,输出的像素值为𝑜𝑢𝑡𝑝𝑢𝑡𝑖=𝑖𝑛𝑝𝑢𝑡𝑖∗𝑟𝑒𝑠𝑐𝑎𝑙𝑒+𝑠ℎ𝑖𝑓𝑡𝑜𝑢𝑡𝑝𝑢𝑡𝑖=𝑖𝑛𝑝𝑢𝑡𝑖∗𝑟𝑒𝑠𝑐𝑎𝑙𝑒+𝑠ℎ𝑖𝑓𝑡。进行调整,计算公式为𝑜𝑢𝑡𝑝𝑢𝑡𝑐=𝑖𝑛𝑝𝑢𝑡𝑐−𝑚𝑒𝑎𝑛𝑐𝑠𝑡𝑑𝑐𝑜𝑢𝑡𝑝𝑢𝑡𝑐=𝑖𝑛𝑝𝑢𝑡𝑐−𝑚𝑒𝑎𝑛𝑐𝑠𝑡𝑑𝑐,其中 𝑐𝑐代表通道索引。提供了面向图像、文本、音频等不同数据类型的Transforms,同时也支持使用Lambda函数。

2024-06-29 22:28:21 810

原创 昇思25天训练营Day3-数据集

模块提供了一些常用的公开数据集和标准格式数据集的加载API。对于MindSpore暂不支持直接加载的数据集,可以构造自定义数据加载类或自定义数据集生成函数的方式来生成数据集,然后通过接口实现自定义方式的数据集加载。支持通过可随机访问数据集对象、可迭代数据集对象和生成器(generator)构造自定义数据集,下面分别对其进行介绍。

2024-06-29 22:05:47 937

原创 昇思25天训练营Day2-张量

张量(Tensor)是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。在某些应用场景中(比如推荐系统、分子动力学、图神经网络等),数据的特征是稀疏的,若使用普通张量表征这些数据会引入大量不必要的计算、存储和通讯开销。张量之间有很多运算,包括算术、线性代数、矩阵处理(转置、标引、切片)、采样等,张量运算和NumPy的使用方式类似,下面介绍其中几种操作。表示非零元素的值,shape表示的是被压缩的稀疏张量的形状。

2024-06-28 23:15:08 874

原创 昇思25天训练营Day1-快速入门

在每一轮,遍历训练集进行训练,结束后使用测试集进行预测。打印每一轮的loss值和预测准确率(Accuracy),可以看到loss在不断下降,Accuracy在不断提高。MindSpore的dataset使用数据处理流水线(Data Processing Pipeline),需指定map、batch、shuffle等操作。提供的数据变换进行预处理。打印数据集中包含的数据列名,用于dataset的预处理。在本教程中,我们使用Mnist数据集,自动下载完成后,使用。类是构建所有网络的基类,也是网络的基本单元。

2024-06-27 22:56:58 386

原创 论文精读-《GPT-NER: Named Entity Recognition via Large Language Models》

大规模语言模型(LLM)在上下文学习方面展现出卓越能力,能够通过少量示例快速适应新任务,尤其在机器翻译、问答和实体抽取等NLP领域取得显著成果。然而,LLM在NER任务上的表现仍落后于监督学习方法,因为NER的序列标记特性与LLM的文本生成形式存在差异。为此,文章提出了GPT-NER模型,它通过将NER任务转化为文本生成任务来解决这一问题,使用特殊标记来标识实体。GPT-NER还引入了自我验证策略,以减少LLM在实体识别上的过度自信倾向,有效缓解了幻觉问题。

2024-06-25 12:10:14 1071

原创 Java基础知识梳理——第十章 IO

1.File类File是Java.io包下代表与平台无关的文件和目录。File能新建、删除、重命名文件和目录。File类可以用文件路径字符串创建File实例。File对象常用的方法:访问文件名相关的方法:String getName():返回此文件对象所表示的文件名或路径名。 String getPath():返回此File对象所对应的路径名。 File getAbsolute...

2019-08-20 23:46:07 377

原创 Java基础知识梳理——第九章 集合

Java集合类可以用于存储数量不等的多个对象,并可以实现常用的数据结构,如栈、队列等。集合还可以用于保存具有映射关系的关联数组。Java集合分为set、map、list三种体系,set代表无序、不可重复的集合;list代表有序、可重复的集合;map代表具有映射关系的集合。容器是可以容纳其他对象的对象。java的集合类主要由两个接口派生而来,collection和map,是Java集合框架的...

2019-07-21 22:40:00 364

原创 HashMap原理及源码

Hash算法给N (1<N<10)个自然数,每个数的范围为(1~10000),以最快速度判断某一个数是否在这N个数内。N:5 10,52,63,15 判断7在不在其中可以用二分法,但二分法的前提条件是有序 。 所以采用 排序+二分的方式,算法复杂度为 O(nlogn)下面是hash算法:O(1)int a[] = new int[...

2019-07-11 21:16:58 122

gobang.rar

Java实现的五子棋。通过两种方法,贴图片的方式和划线的方式。

2019-07-09

java实现的水果忍者游戏

java实现的水果忍者游戏。通过拖动鼠标切水果得分 有登录注册功能,排行榜。

2019-03-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除