helluy-CSDN博客

原创 python中from xxx import xxx的相对引用问题

时程序不知道上级和上上级目录是什么(因为只有一个modeling_llama)，如果想要跑通，需要在modeling_llama.py的import之前指定__name__=‘xxx/xxx/xxx/modeling_llama.py’，第一个xxx表示modeling_llama.py的前2级目录(不包括目前这一级)。完成__name__之后，还需要让程序知道第一个xxx在哪，这时需要用sys.path.append(yyy)指定第一个xxx的父目录（即xxx在yyy里面，yyy为绝对路径）。

2023-10-15 20:54:50 233 1

原创 pyspark报错TypeError: an integer is required (got type bytes)

电脑中有多个python版本：3.8, 3.7和Anaconda的，但只在3.7配置了pyspark环境，就算将编译器切换至3.7，程序执行还是会调用其他python的runpy.py文件导致报错，改变环境变量顺序无果，索性将其他python版本删除，解决问题。

2023-09-03 11:59:05 502

原创【读论文】一种半监督文本分类方法：MixText

MixText是ACL2020中的一篇半监督文本分类的论文，原文题目为《MixText: Linguistically-Informed Interpolation of Hidden Space for Semi-Supervised Text Classification》，一作为陈佳奥，佐治亚理工学院 PhD in CS。文章使用TMix数据增强技术，猜测未标记数据的低熵标签，对有标签和无标签混合数据计算损失，在少量标注数据上依然能取得好的效果。之前在半监督文本分类上的研究可分为以下几类：VAEs

2022-04-28 19:18:49 1517

原创【读论文】一种通用句子编码：Universal Sentence Encoder

通用句子编码器是google在2018年提出的将句子编码成嵌入向量的模型，这些嵌入向量专门针对将学习转移到其他NLP任务。文章中指出，对于许多NLP任务，可用的训练数据有限。这对数据饥渴的深度学习方法提出了挑战。由于注释有监督的训练数据的成本很高，对于大多数研究或行业NLP任务，通常无法使用非常大的训练集。许多模型通过使用隐式执行有限的迁移学习来解决如word2vec，Glove等，都有不错的效果。作者发现，他们的句子嵌入的迁移学习往往优于单词级迁移。通过句子嵌入的迁移学习，他们观察到，在迁移任务中，在最少

2022-03-30 16:25:17 4116

原创深度学习优化算法

优化算法梯度下降随机梯度下降小批量随机梯度下降冲量法Adam梯度下降随机梯度下降小批量随机梯度下降冲量法Adam在机器学习中，无论是回归还是分类，我们大部分的目标是优化损失函数使其最小，但如何让机器找到使损失函数最小的参数？根据微积分的知识我们知道在函数的极小值点附近，如果沿着函数梯度的方向行走，函数值是下降的：以线性回归问题为例（如下图），损失函数为二次函数。式中的a为学习率，当学习率较小的时候，权重梯度优化的速度较慢，损失每次变化的幅度较小，收敛到最小值点速度慢。反之学习率较大时，参数每次

2022-02-26 20:16:48 827

原创 Transformer结构与论文解读

transformer架构是 Google 团队在 17 年 6 月提出的 NLP 经典之作，由 Ashish Vaswani 等人在 2017 年发表的论文 Attention Is All You Need 中提出，最早使用在机器翻译中，在WMT 2014英德翻译任务中获得28.4个BLEU，比现有的最佳结果(包括集合)提高了2个BLEU，也打开了NLP领域预训练这一新范式。论文地址：[Attention Is All You Need](https://arxiv.org/pdf/1706.037

2022-01-11 19:23:40 1565

原创注意力机制Attention Mechanism及论文

注意力机制源于对人类视觉的研究。在认知科学中，由于信息处理的瓶颈，人类会选择性地关注所有信息的一部分，同时忽略其他可见的信息，上述机制通常被称为注意力机制。例如在NLP中，当要捕捉一句话中词与词的关系时，如：当看到eating这个词时，我们更希望看到食物apple，而对颜色green并不在意，此时我们就可以使用注意力机制来衡量词之间的相关性。相比于序列模型，它能够通过矩阵运算实现并行化，提高效率。

2022-01-04 11:09:13 6096

原创 GRU与LSTM结构

由于原始的RNN会在每一次输入时堆叠之前的隐藏状态，所以在nlp中面对长句子时RNN往往会忘掉之前比较重要的信息，故隐藏转态的更新与保留需要控制，所以出现了门的概念，具有代表性的就是LSTM与GRU。

2021-12-24 16:59:57 2390

原创 ResNet结构与论文理解

ResNet残差快ResNet网络ResNet也被称为残差网络，是由何凯明为主的Microsoft Research的4位学者在2015年首次提出，获得了2015年ILSVRC分类任务的第一名，还在ImageNet检测、ImageNet定位、COCO检测和COCO分割的任务中获得了第一名。也可以说是卷积神经网络中最常用的网络之一，并深刻影响了后来的深度神经网络的设计，不仅在计算机视觉领域取得发展，在nlp领域如transformer等模型里也有应用。原论文地址：Deep Residual Learnin

2021-11-20 00:13:20 2578

原创 GoogLeNet v1结构

GooLeNetInception块GooLeNetGooLeNet是google2014年推出的深度神经网络模型，原论文名称为：Going deeper with convolutions，在沐神的书上也被叫做含并⾏连结的⽹络（主要由于Inception块中的结构）。该模型在2014年ILSVRC 2014比赛中竞赛中夺得冠军，14年之后也在不断发展，这里就介绍一下初始的版本。Inception块GooLeNet思想有点类似于VGG，先构建块，网络主要通过块的堆叠实现，不过这里的块与VGG块不同，称

2021-11-16 15:07:59 1993

原创 LeNet与AlexNet结构

LeNet与AlexNetLeNetAlexNetLeNetLeNet是经典的卷积神经网络，早期应用于手写数字识别。下面是模型的内部结构图：可以看到，模型主要是卷积、池化与全连接层组成。输入数据为一张32x32的灰度图（这里加了一点padding，原始手写数字的图片是28x28），输出为10维向量对应输入属于哪一类的概率。模型第一层为卷积层，输出结果为6x28x28的张量（可推得卷积核为6x5x5）；第二层为pooling层，形状为2x2，这里的pooling的窗口不会重叠（与pytorch的poo

2021-11-05 13:11:23 911

原创神经网络中的卷积层

卷积层两个原则具体计算步骤填充与步幅两个原则全连接的线性变换由于前一层和后一层所有的神经元之间都有一对一的连接关系，也称为稠密连接层（Dense Layer）。在实际的应用过程中，这种神经元之间关系的描述可能有许多冗余，对于神经网络模型的训练并不是很友好。为此，人们发明了一系列稀疏（Spare）的连接方式来描述前后两层神经元之间的连接关系，其中最有名的一个就是卷积层（Convolution Layer），对应的神经网络称为卷积神经网络（Convolution Neural Networks，CNN）。

2021-10-29 12:32:01 4340

原创 RNN基本思想及简单代码实现

RNNRNN简单介绍RNN基本思想举例RNN简单介绍计算机视觉中，识别图像时每张图片是孤立的，前一张图片识别的结果并不会对后一张图片识别的结果有影响。但现实生活中，许多数据带有明显的顺序，如NLP领域中，顺序是语言的基本特征，如“我吃苹果”与“苹果吃我”就是两个完全不同的意义，也可以从语言结构中得到信息，比如主语“我”后面接一个动词“吃”，“吃”后面往往接一个名词，这种隐藏在语言当中的序列关系如何提取与表示呢，人们找到了RNN(Recurrent Neural Network)，一个高度重视序列信息的网

2021-09-27 23:16:36 3628

原创 PCA（主成分分析）降维算法

在主成分分析中，若有一低维平面能有效提取原数据信息，则它应一般满足最大可分性：样本点在这一低维平面的投影尽可能分开，也就是方差最大原则。先将数据规范化（中心化），即均将所有点的横坐标均值与纵坐标均值变成0，处理方法为每个点的横坐标减去所有点横坐标均值，纵坐标同理。，也就是在特征向量方向轴上的投影长度方差，方差越大，可以认为，含有原数据信息量越全面。，即原数据在对应特征向量方向轴上的方差就是该特征向量对应的特征值!可以看出，特征值越大，方差越大，对原数据的信息保留越全面。方向轴上的坐标，形状为nx1，此时。

2021-08-29 23:33:26 199

原创朴素贝叶斯分类、半朴素贝叶斯分类算法

贝叶斯分类朴素贝叶斯分类半朴素贝叶斯分类朴素贝叶斯分类我们大致先认识一下朴素贝叶斯分类。问题背景：假设你是一家电脑店的老板，陆续有人从你这里买到电脑，但也有人不会选择你这家店。如果此时你店里来了几个顾客，如果能事先知道哪些人会购买你的电脑，这无疑对你是一个很大的帮助。分析：假设你随机选取了50个来过你店里的顾客，其中有买电脑的和没有买的，你之前都观察了解了这50个顾客的相关特征，比如有年龄、收入状况和是否爱打游戏。这样你就得到了类似以下数据（部分）：顾客编号年龄收入状况是否爱打游

2021-07-25 21:06:30 741 1

原创决策树划分选择算法

依据结点（即数据属性）划分数据集，一般而言，随着划分过程的不断进行，我们希望决策树的分支节点所包含的样本尽可能属于同一个类别，即结点的“纯度”决策树的分类效果才有效果，否则如果在该分支节点下每个分支样本类别包含样本混杂，说明在该结点没有较好的划分数据的作用，因此如何选择最优划分属性成为决策树中最重要的步骤之一，以下有3种方式，但思想共通。# ID3决策树学习算法ID3决策树学习算法就是以信息增益准则来选择划分属性。## 信息熵“信息熵”是度量样本集合纯度最常用的一种指标，也可以理解为样本类别不确定性

2021-06-23 21:12:34 837

helluy的博客