CNN、RNN、LSTM、BERT等引用格式

三个引用格式,以此是

GB/T 7714:文后参考文献著录规则(我国)国家标准的代号由大写汉语拼音字母构成。 强制性国家标准的代号为"GB",推荐性国家标准的代号为"GB/T"。

MLA(Modern Language Association)是一种常用的引用格式,为美国现代语言协会制定的论文指导格式,在一般书写英语论文时应当使用MLA格式来保证学术著作的完整。”

APA(American Psychological Association):APA格式是一个为广泛接受的研究论文撰写格式,特别针对社会科学领域的研究,规范学术文献的引用和参考文献的撰写方法,以及表格、图表、注脚和附录的编排方式。

中文论文引用一般都是GB/T的

CNN:

[1] Kim Y . Convolutional Neural Networks for Sentence Classification[J]. Eprint Arxiv, 2014.

[1] Kim, Y. . "Convolutional Neural Networks for Sentence Classification." Eprint Arxiv (2014).

[1] Kim, Y. . (2014). Convolutional neural networks for sentence classification. Eprint Arxiv.

RNN

[1] Elman J L . Finding Structure in Time[J]. Cognitive Science, 1990, 14(2):179-211.

[1] Elman, J. L. . "Finding Structure in Time." Cognitive Science 14.2(1990):179-211.

[1] Elman, J. L. . (1990). Finding structure in time. Cognitive Science, 14(2), 179-211.

LSTM

[1] Hochreiter S ,  Schmidhuber J . Long Short-Term Memory[J]. Neural Computation, 1997, 9(8):1735-1780.

[1] Hochreiter, S. , and  J. Schmidhuber . "Long Short-Term Memory." Neural Computation 9.8(1997):1735-1780.

[1] Hochreiter, S. , &  Schmidhuber, J. . (1997). Long short-term memory. Neural Computation, 9(8), 1735-1780.

GRU

[1] Chung J ,  Gulcehre C ,  Cho K H , et al. Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling[J]. Eprint Arxiv, 2014.

[1] Chung, J. , et al. "Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling." Eprint Arxiv (2014).

[1] Chung, J. ,  Gulcehre, C. ,  Cho, K. H. , &  Bengio, Y. . (2014). Empirical evaluation of gated recurrent neural networks on sequence modeling. Eprint Arxiv.

TransE

[1] Bordes A ,  Usunier N ,  Garcia-Duran A , et al. Translating Embeddings for Modeling Multi-relational Data. Curran Associates Inc.  2013.

[1] Bordes, Antoine , et al. "Translating Embeddings for Modeling Multi-relational Data." Curran Associates Inc.(2013).

[1] Bordes, A. ,  Usunier, N. ,  Garcia-Duran, A. ,  Weston, J. , &  Yakhnenko, O. . (2013). Translating Embeddings for Modeling Multi-relational Data. Curran Associates Inc.

Transformer(Attention is all you need)

[1] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.

[1] Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems 30 (2017).

[1] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems30.

BERT

[1] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.

[1] Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).

[1] Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.

基于Pytroch框架实现中文文本分类模型,包含CNNLSTMBERT等模型结构LSTM (Long Short-Term Memory) 是一种特殊的循环神经网络(RNN)架构,用于处理具有长期依赖关系的序列数据。传统的RNN在处理长序列时往往会遇到梯度消失或梯度爆炸的问题,导致无法有效地捕捉长期依赖。LSTM通过引入门控机制(Gating Mechanism)和记忆单元(Memory Cell)来克服这些问题。 以下是LSTM的基本结构和主要组件: 记忆单元(Memory Cell):记忆单元是LSTM的核心,用于存储长期信息。它像一个传送带一样,在整个链上运行,只有一些小的线性交互。信息很容易地在其上保持不变。 输入门(Input Gate):输入门决定了哪些新的信息会被加入到记忆单元中。它由当前时刻的输入和上一时刻的隐藏状态共同决定。 遗忘门(Forget Gate):遗忘门决定了哪些信息会从记忆单元中被丢弃或遗忘。它也由当前时刻的输入和上一时刻的隐藏状态共同决定。 输出门(Output Gate):输出门决定了哪些信息会从记忆单元中输出到当前时刻的隐藏状态中。同样地,它也由当前时刻的输入和上一时刻的隐藏状态共同决定。 LSTM的计算过程可以大致描述为: 通过遗忘门决定从记忆单元中丢弃哪些信息。 通过输入门决定哪些新的信息会被加入到记忆单元中。 更新记忆单元的状态。 通过输出门决定哪些信息会从记忆单元中输出到当前时刻的隐藏状态中。 由于LSTM能够有效地处理长期依赖关系,它在许多序列建模任务中都取得了很好的效果,如语音识别、文本生成、机器翻译、时序预测等。
### 各种深度学习模型的工作原理与应用场景 #### 卷积神经网络(CNN) 卷积神经网络是一种专门用于处理具有网格状拓扑的数据的神经网络架构,特别擅长于图像分类、目标检测等领域。其核心思想在于利用局部感知野和权值共享来减少参数数量并提高计算效率[^2]。 - **工作原理**: CNN主要由卷积层、池化层和全连接层组成。卷积层通过滤波器提取特征;池化层则降低维度以减少过拟合;最后通过全连接层完成分类任务。 - **应用场景**: 图像识别、视频分析、医学影像诊断。 ```python import tensorflow as tf from tensorflow.keras import layers, models model = models.Sequential() model.add(layers.Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1))) model.add(layers.MaxPooling2D((2, 2))) model.add(layers.Flatten()) model.add(layers.Dense(10)) ``` --- #### 循环神经网络(RNN) 循环神经网络是一种能够捕捉时间序列数据依赖关系的模型,广泛应用于自然语言处理领域。然而,由于梯度消失或爆炸问题,传统的RNN难以处理较长的时间序列数据[^3]。 - **工作原理**: RNN的核心特点是隐藏状态会传递到下一个时刻,形成一种“记忆”。这种特性使其可以建模动态时序行为。 - **应用场景**: 文本生成、情感分析、手写体识别。 --- #### 长短时记忆网络(LSTM) 作为一种改进版的RNNLSTM通过引入输入门、遗忘门和输出门三种门控机制,成功克服了传统RNN存在的梯度消失问题,非常适合处理长期依赖的任务。 - **工作原理**: LSTM单元内部维护了一个细胞状态,并借助上述三类门控结构决定何时更新、保留或者释放信息。 - **应用场景**: 股票价格预测、语音合成、机器翻译。 ```python from tensorflow.keras.layers import LSTM lstm_layer = LSTM(units=64, return_sequences=True) ``` --- #### 生成对抗网络(GAN) 生成对抗网络由生成器和判别器两部分构成,二者相互竞争又共同进化,最终实现高质量样本的生成[^1]。 - **工作原理**: 判别器负责区分真实数据与伪造数据,而生成器试图欺骗判别器接受虚假样本。经过多次迭代优化后,生成器可生成接近真实的样本。 - **应用场景**: 图像超分辨率重建、风格迁移、虚拟人物创建。 ```python import torch.nn as nn class Generator(nn.Module): def __init__(self): super().__init__() self.main = nn.Sequential( nn.Linear(100, 256), nn.ReLU(), nn.Linear(256, 784), nn.Tanh() ) def forward(self, x): return self.main(x) ``` --- #### Transformer Transformer摒弃了以往基于RNN的设计思路,转而采用自注意力机制(Self-Attention Mechanism),极大地提升了并行计算能力以及长距离上下文关联捕获的能力[^5]。 - **工作原理**: 编码器端接收输入序列并通过多头自注意力建立全局联系;解码器端依据编码结果逐步生成目标序列。整个过程无需顺序执行即可一次性获取全部位置的信息。 - **应用场景**: 自然语言生成、问答系统构建、跨语言翻译服务。 ```python import transformers tokenizer = transformers.BertTokenizer.from_pretrained('bert-base-uncased') model = transformers.BertModel.from_pretrained('bert-base-uncased') inputs = tokenizer("Hello world!", return_tensors="pt") outputs = model(**inputs) ``` ---
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值