沐兮Krystal-CSDN博客

原创【复习笔记】学术英语

Title (MC)标题中不要包含数值。

2024-01-05 09:54:17 1733

原创【论文阅读】面向抽取和理解基于Transformer的自动作文评分模型的隐式评价标准（实验结果部分）

在这一部分，我们展示对于每个模型比较的聚合的统计分析当涉及到计算特征和独立的特征组（表格1），抽取功能组和对齐重要功能组（表格2），并且最后，我们提供从模型比较（LANGUAGE模型v.s.MAIN IDEA模型）中获取的样例。由于长度限制，我们只展示了这个比较的细节样例。相似的图片和相关性分析展示在Github上。

2023-10-10 21:51:10 1243

原创【知识积累】准确率，精确率，召回率，F1值

准确率，精确率，召回率，F1值的简单易懂的介绍；多分类的情况；宏观和围观的情况。

2023-09-04 10:33:05 567

原创【学习笔记】生成式AI（ChatGPT原理，大型语言模型）

基于李宏毅课程，学习生成式AI的学习笔记。内容包括ChatGPT原理剖析，finetune和prompt的相关内容等。

2023-08-04 17:49:55 1293

原创【论文阅读】通过解缠绕表示学习提升领域泛化能力用于主题感知的作文评分

本文工作聚焦于从领域泛化的视角提升AES模型的泛化能力，在该情况下，目标主题的数据在训练时不能被获得。- 本文提出了一个主题感知的神经AES模型（PANN）来抽取用于作文评分的综合的表示，包括主题无关（prompt-invariant）和主题相关（prompt-specific）的特征。- 为了提升表示的泛化能力，我们进一步提出了一个新的解缠绕表示学习框架（disentangled representation learning）。在这个框架中，设计了一个对比的模长-角度对齐策略（norm-angula

2023-07-28 19:16:03 1859 1

原创【论文阅读】聚集多个启发式信号作为监督用于无监督作文自动评分

- 本文提出一个新的无监督的AES方法ULRA，它不需要真实的作文分数标签进行训练；- ULRA的核心思想是使用多个启发式的质量信号作为伪标准答案，然后通过学习这些质量信号的聚合来训练神经自动评分模型。- 为了将这些不一致的质量信号聚合为一个统一的监督信号，我们将自动评分任务视为一个排序问题，并设计了一种特殊的深度成对排名聚合（DPRA）损失函数进行训练。- 在DPRA损失中，我们为每个信号设置了一个可学习的置信权重来解决信号间的冲突，并且以成对的方式训练神经AES模型以解开部分排序对之间的级联效应。

2023-07-18 17:25:13 1227 1

原创【迁移学习】分布差异的度量以及迁移学习的统一表征方法

在文本分类中，由于文本数据有其**领域特殊性**，因此，在一个领域上训练的分类器，不能直接拿来作用到另一个领域上，这就需要用到迁移学习。**结构风险最小化**是统计机器学习中一个非常重要的概念。- SRM准测要求模型在你和训练数据的基础上，也要具有相对简单的复杂性（较低的VC维。领域（Domain）是学习的主体，主要由两部分构成：数据和生成这些数据的概率分布。样本权重迁移法；特征变换迁移法；模型预训练迁移法。

2022-11-21 17:39:20 4070

原创【Tensorflow】使用Tensorflow加载和预处理数据

【代码】【Tensorflow】使用Tensorflow加载和预处理数据。

2022-11-17 15:30:42 867

原创【Tensorflow】使用Tensorflow自定义模型和训练

Tensorflow的核心与NumPy非常相似，但具有GPU支持；Tensorflow支持分布式计算（跨多个设备和服务器）。Keras的底层API；定制模型和训练算法；自定义损失函数；保存和加载包含自定义组件的模型；自定义激活函数、初始化、正则化和约束；在每个训练步骤中，权重将传递给正则化函数，以计算正则化损失，并将其添加到主要损失中得到用于训练的最终损失。自定义指标

2022-11-15 20:00:38 1869

原创使用BERT来进行作文自动评分：多规模文本表示的联合学习

- 在AES领域，预训练的语言模型没有被很适合地应用，来超过比如LSTM之类的深度学习方法。- 本文介绍了一个新的基于BERT的多规模的文本表示模型，它能够被联合学习。我们也应用了多损失和来自其他领域文章的迁移学习来进一步提升性能。- 本文的方法在ASAP数据集上取得了state-of-the-art的结果，并且提出的多规模文本表示在CRP数据集上的泛化结果也很好。

2022-11-08 20:10:47 2322 1

原创【Keras】AveragePooling1D层和GlobalAveragePooling1D层

- 平均池化用于时序数据。- 下采样输入表示，通过对被定义为pool_size的窗口取平均值。窗口根据步长strides进行切换。- 当使用"valid" （padding）填充选项时，结果的输出的形状为：output_shape = (input_shape - pool_size + 1) / strides)inputs：一个三维的tensor。- mask：二元的tensor，它的shape是（batch_size, steps），表明给定的step是否应该被masked（也就是从平均值里剔

2022-11-01 20:35:08 2128

原创【神经网络】Dropout原理

深度神经网络的参数量巨大，容易出现过拟合。Dropout是一种用于防止神经网络过拟合的技术。- 常用的防止过拟合的方法： - 在训练过程中，当模型在验证集上效果开始变差的时候，停止训练。 - 引入参数的惩罚项，例如L1，L2正则。

2022-10-31 11:51:17 515

原创【实验笔记】2022-10-29到2022-10-30的报错及解决方案记录

报错：utils' has no attribute 'get_logger';theano库的简单用法;VsCode Shell 集成无法激活;解决Python无法导入自定义的包中的模块的问题;之后将该自定义包的路径加入到系统路径列表中;安装tensorflow时报错Failed building wheel for grpcio;安装低版本一点的tensorflow;采用命令行的方式进行调试：ipdb.

2022-10-30 23:12:49 559

原创【工具使用】怎么设置SSH隧道（Port Forwarding）

- SSH隧道（SSH tunneling）是一个在一个客户端和服务器之间创建加密的SSH连接的方法，它通过能够被转播的端口进行。- SSH传送（SSH forwarding）对于运送网络中的服务数据很有用，它使用未加密的协议，比如VNC或者FTP，来获取受到地域限制的内容，或者绕开中间的防火墙。基本上，你可以传送任何TCP端口和打通通道通过一个安全的SSH连接。- 这里有三种类型的SSH端口传送： - 局部端口传送：从客户端主机到SSH服务器主机传送连接，之后再到达目标主机端口。 - 远程端口

2022-10-29 19:55:17 1876

原创【工具使用】Visual Studio Code远程调试

VS Code的其中一个关键的特征就是它极好的调试支持。VS Code的内置调试器帮助加速你的编辑、编译和调试循环。

2022-10-29 17:54:18 1527

原创【论文阅读】基于整合项目反应理论（IRT）的深度神经网络的解析自动作文评分

作文考试一直以来作为一种衡量应试者的更高等级的能力的方式吸引大家的注意，但是目前在对他们进行评分评定等级的时候有两个主要的缺陷，一是人力成本昂贵，二是存在公平性的问题。作为一种克服这些困难的方式，自动作文评分（AES）有着持续的需求。- 大多数现有的模型被设计为只是预测一个单一的整体分数。但是，在实际应用场景下如果要提供更加细致的反馈，我们不仅需要整体的分数，还需要**对应于文章的不用方面的解析分数**。- 卷积模型被设计为对每个解析分数都有着复杂的神经架构，这使得解释分数的预测非常的困难。

2022-10-25 19:48:37 1389 1

原创【Tensorflow】神经机器翻译的编码器-解码器网络

神经机器翻译的编码器-解码器网络；每个单词最初都由其ID表示，embedding层返回词嵌入。在每个步长中，解码器为在词汇表中的每个单词输出一个分数。TensorFlow Addons项目包含很多序列到序列的工具，下面创建一个基本的解码器-编码器模型；在同一输入上运行两个循环层，这称为双向循环层。集束搜索；采用集束搜索：它跟踪k个最有希望的句子的一个短列表，在每个解码器步长中尝试用一个单词扩展，仅仅保留k个最可能的句子，参数k称为集束宽度。

2022-10-25 11:44:44 674

原创【Tensorflow】使用字符RNN生成莎士比亚文本

研究如何构建Char-RNN。将每个字符编码为整数。一种选择是创建自定义的预处理层。首先，我们需要为文本添加一个分词器；使用文本的前90%作为训练集（其余部分保留为验证集和测试集）；Window()方法创建一个包含窗口的数据集；使用独热向量对每个字符进行编码；创建和训练Char-RNN模型；使用有2个GRU层的RNN。输出层是一个时间分布的Dense层，该层要有39个单元，将softmax应用于Dense层的输出。

2022-10-24 16:24:01 687 1

原创【Keras】各个优化器的介绍与使用（动量优化，Nesterov， AdaGrad，RMSProp，Adam和Nadam优化）

动量优化；动量优化将沿着山谷滚得越来越快，知道达到谷底（最优解）。Nesterov加速梯度（Nersterov Accelerated Gradient，NAG）也称为Nesterov动量优化，它不是在局部位置$\theta$，而是在$\theta+\beta m$处，沿动量方向稍微提前处，测量成本函数的梯度。AdaGrad算法通过沿着最陡峭的维度按比例缩小梯度向量来实现，更早地纠正其方向。RMSProp算法通过只是累加最近迭代中的梯度（而不是自训练开始以来的所有梯度），通过在第一步中使用指数衰减来实现；A

2022-10-22 16:59:48 1758

原创【Keras】重用预训练层

找到一个现有的与要解决的任务相似的神经网络，重用该网络的较低层，此技术称为迁移学习；用Keras进行迁移学习；假设Fashion MNIST数据集上仅包含8个类别（出来凉鞋和衬衫之外的所有类别），有人在该数据集上建立并训练了Keras模型，称为模型A。冻结或解冻层之后，总是要编译模型。训练模型几个轮次，然后解冻重用的层；在辅助任务上训练第一个神经网络，这个辅助任务中你可以轻松得为其获得或生成标记的训练数据，然后对实际任务重用该网络的较低层。第一个神经网络将学习特征检测器，第二个神经网络可能会重用这些特征检测

2022-10-20 20:19:53 555

原创【神经网络】梯度消失与梯度爆炸问题

Glorot 和 He 初始化；我们需要信号在两个方向上正确流动：进行预测时，信号为正向；在反向传播梯度时，信号为反向。非饱和激活函数；ReLU函数的变体，例如leaky ReLU。使用激活函数，通常 SELU>ELU>Leaky ReLU（及其变体）>ReLU>tanh>logistic。2015年提出一种称为批量归一化（BN）的技术来解决梯度消失/梯度爆炸问题。该操作可以使模型学习各层输入的最佳缩放和均值。用Keras实现批量归一化；在每个隐藏层的激活函数之前或之后添加一个BatchNormalizat

2022-10-19 11:12:53 1064

原创【实验】主题建模工具BERTopic的安装及使用过程中的报错解决方案

手动安装主题建模工具BERTopic；注意.whl文件需要修改名字；FileNotFoundError: [WinError 3] 系统找不到指定的路径。: 'C:\\Users\\pangu/.cache\\torch\\sentence_transformers\\sbert.net_models_all-MiniLM-L6-v2'；requests.exceptions.SSLError: HTTPSConnectionPool(host='huggingface.co', port=443):

2022-10-17 16:48:27 3092 2

原创【论文阅读】BERTopic：采用一个基于类的TF-IDF流程进行神经网络的主题建模

主题模型对于在文档的集合中发现潜在的主题非常有用。近期的研究已经展示了主题建模方法作为一个聚类任务的可行性。本文展示了BERTopic，它是一个话题模型，它通过对一个基于类的TF-IDF的变体的开发，抽取一致的话题表示。具体来说，BERTopic采用预训练的基于transformer的语言模型来产生文档的嵌入，对这些文档嵌入进行聚类，并最后利用基于类的TF-IDF过程来**产生话题的表示**。BERTopic 产生一致的话题，并且在有关的经典模型，以及最近的聚类方法的多种多样的基准中，

2022-10-16 20:47:30 4288 4

原创【Keras】微调神经网络超参数

使用 GridSearchCV 或 RandomizedSearchCV 来探索超参数空间。深层网络可以使用更少的神经元对复杂的函数进行建模。现实中的数据通常以层次结构进行构造；找到一个好的学习率的方法是：对模型进行数百次迭代训练，从非常低的学习率（例如10-5）开始，然后并逐渐将其增加到非常大的值；ReLU激活函数是所有隐藏层的良好的默认设置。

2022-10-16 16:39:51 1063

原创【论文阅读】EssayGAN：基于生成对抗网络的数据增强用于自动作文评分

构建一个基于AES的深度学习系统，需要一个包含人为打分的训练数据集。本文介绍了EssayGAN，一个**基于生成对抗网络的自动文章生成器**。为了生成打分了的文本，EssayGAN有每个分数范围对应的生成器以及一个鉴别器。每个生成器致力于一个特定的分数，并且生成打分为该分数的文本。这样，生成器能够只关注于产生一个看起来实际可行的文章，这个文章能够欺骗鉴别器，使得鉴别器不用考虑目标分数。尽管普通文本的生成对抗网络（GANs）基于词来产生文本，EssayGAN基于句子来产生文本。

2022-10-11 14:53:50 1456 4

原创【PyTorch】生成对抗网络GAN入门

如何训练生成器：如果图像通过了鉴别器的检验，我们奖励生成器；如果伪造的图像被识破，我们惩罚生成器。这种架构叫做生成对抗网络（Generative Adversarial Network, GAN）。它利用竞争来驱动进步，并且，我们不需要定义具体的规则来描述要编码到损失函数中的真实图像，相反，我们让GAN自己来学习什么是真正的图像。生成1010格式规律

2022-10-09 20:25:59 932

原创【PyTorch】CUDA基础知识

为了追求更快的速度，机器学习研究人员开始利用一些计算机中的特殊硬件。这些硬件原本是用来提升图形处理性能的，叫做显卡。显卡中包含一个GPU，它能够以高度并行化的方式实现矩阵乘法。在很长一段时间，英伟达（NVIDIA）的GPU市场份额一直保持领先。他们有一套成熟的软件工具，可以充分利用硬件加速。这套软件框架就是CUDA。MVIDIA的竞争对手是AMD。在简单的基准测试中，GPU的速度超过CPU 150倍。

2022-10-08 11:11:28 1336

原创【PyTorch】PyTorch神经网络实战入门

我们使用由谷歌提供的Colab免费服务，在谷歌的服务器上运行代码。将一行像素值转换成实际图像来直观地查看一下。构建神经网络类，以下为一个名为Classifier的类，它继承了nn.Module。使用损失来更新网络的链接权重替代方案是**Adam**，它利用动量的概念，减少陷入局部最小值的可能性，同时，它对每个可学习的参数使用单独的学习率

2022-10-08 10:07:09 1104

原创【论文阅读】自动作文评分系统：一份系统的文献综述

- 许多研究者在过去的几十年间都在致力于自动作文评分和简答题打分，但是通过像与提示之间的内容的相关性、思想的发展性、文章内聚力、文章连贯性等来评估一篇文章，到目前为止都是一项挑战。- 很少的研究者聚焦于基于内容的评分，他们中的大多数都强调基于风格的评分。- 我们观察到在内容和连贯性（coherence）方面对于文章评分的研究还没有完善。

2022-10-04 16:37:52 4550 2

原创【深度学习】Keras人工神经网络简介（理论+实战）

感知器是最简单的ANN架构之一，它基于阈值逻辑单元（TLU）。信号仅沿一个方向（从输入到输出）流动，以下架构是前馈神经网络（FNN）的示例。创建一个隔离的Python环境：如果创建了virtualenv，则需要注册到Jupyter，并给它一个名字；创建一个Sequential模型（仅由顺序连接的单层堆栈组成，称为顺序API）

2022-10-03 15:08:53 1231

原创【论文阅读】用于自动中文作文评分的多阶段预训练

这篇文章提出了一个基于预训练的中文作品评分方法。方法包含3个成分：弱监督预训练，有监督的交叉提示（cross-prompt）微调和有监督的目标提示（target-prompt）微调。一个文章打分器首先在一个大的文章数据集上进行训练，该数据集包含多样的话题和粗糙的分数（例如，好和坏），作为弱监督。预训练好的文章打分器之后会从现存的提示中在先前分好等级的文章上进行微调，这些文章和目标提示有着一样的分数范围，并且能够提供额外的监督。最后，评分器会在目标提示的训练数据上进行微调。

2022-09-29 19:30:50 1691 4

原创【论文阅读】提升的自动作文评分通过Prompt预测和匹配

- 自动作文评分的目标时自动得评估文章的质量。它是自然语言处理领域中主要的教育应用之一。近来，预训练的技术被用于提升下游任务的性能表现。- 但是，通过预训练的编码器获取更好的特征，比如说prompts，是很重要的但是并没有被完完全全的研究。- 在这篇论文中，我们创造了一个prompt特征融合方法，这个方法更适合于微调。并且，我们通过设计两个辅助的任务（prompt预测和prompt匹配），使用多任务学习来获得更好的特征。- 实验结果显示两个辅助任务都可以提升模型性能，并且结合两个辅助任务和NEZHA预

2022-09-25 17:08:26 1792 1

空空如也

空空如也