- 博客(33)
- 收藏
- 关注
原创 给我10分钟带你了解数仓分层建模与企业DW表设计
数据仓库分层建模是通过分层设计(如ODS、DWD、DWS、ADS)来组织和处理数据,从而提高数据处理效率和查询性能,而企业项目中的宽表设计与搭建实战则关注如何在数据仓库中构建高效的宽表以优化查询和数据分析。
2024-09-05 09:38:12 1200
原创 word2vec实战
Word2Vec 是一种将词语嵌入到向量空间中的算法,由 Tomas Mikolov 等人在 2013 年提出。它利用神经网络将词语映射到低维向量空间中,使得相似词语的向量在空间中更接近。这些词向量捕捉了词语的语义和句法信息,是许多自然语言处理任务中的基础。预测当前词语的上下文词语。通过上下文词语预测目标词语。预测上下文词语的当前词语。给定目标词语,预测其上下文词语。
2024-06-17 14:40:47 345
原创 NNLM模型实战
NNLM(Neural Network Language Model)是一种基于神经网络的语言模型,用于捕捉语言中的语义和句法关系。与传统的统计语言模型相比,NNLM 能更好地处理稀疏数据问题,并且能够捕捉到更复杂的语言结构。NNLM 模型通常包括以下几个部分:输入层(Input Layer):接受一个词或一段文本作为输入,通常使用词嵌入(Word Embeddings)来表示输入的词。嵌入层(Embedding Layer):将离散的词语转换为连续的向量表示,这些向量捕捉了词语的语义信息。
2024-06-14 09:58:43 338
原创 PCA_共现窗口矩阵
共现窗口矩阵是基于词语在文本中的共现关系构建的矩阵。具体而言,对于一个给定的词语,我们考察其在一定窗口范围内与其他词语的共现次数,从而构建词语间的共现矩阵。该矩阵可以反映词语间的上下文关系。
2024-06-13 10:45:12 189
原创 SVD实战
奇异值分解(Singular Value Decomposition, SVD)是一种强大的矩阵分解技术,广泛应用于数据分析、信号处理和机器学习等领域。SVD 将一个矩阵分解成三个矩阵的乘积,提供了对矩阵结构的深刻理解。
2024-06-13 10:15:59 168
原创 PCA实战
主成分分析(Principal Component Analysis, PCA)是一种常用的数据降维技术,它通过线性变换将高维数据投影到低维空间,同时尽可能保留原始数据的主要特征。PCA 的目标是找到数据中方差最大的方向,这些方向称为主成分。1.标准化数据:PCA 对数据的尺度敏感,因此通常需要对数据进行标准化处理,使得每个特征的均值为0,标准差为1。2.计算协方差矩阵:协方差矩阵反映了数据中各特征之间的关系。3.计算协方差矩阵的特征值和特征向量:特征向量表示主成分的方向,特征值表示主成分的方差。
2024-06-13 10:00:30 331
原创 常见的损失函数
在机器学习和深度学习中,损失函数(Loss Function)用于评估模型的预测结果与真实结果之间的差距。选择合适的损失函数是训练模型的关键。均方误差(MSE)交叉熵损失(CEL)
2024-06-12 09:33:12 205
原创 非线性SVM模型
非线性支持向量机(SVM)是为了处理线性不可分数据而设计的。它通过使用核函数将数据映射到一个高维空间,在这个高维空间中,数据变得线性可分,从而实现分类。常见的核函数包括多项式核、径向基函数(RBF)核和 sigmoid 核等。非线性 SVM 的优化目标与线性 SVM 类似,非线性 SVM 通过引入核函数,将原始数据映射到高维空间,在高维空间中找到一个超平面来实现分类。
2024-06-11 14:45:17 332
原创 线性svm模型
线性支持向量机(SVM)是一种用于分类任务的监督学习模型。线性 SVM 通过寻找一个超平面来最大化数据点间的间隔,从而实现数据的分类。线性 SVM 特别适合处理高维数据和二分类问题。以下是对线性 SVM 模型的介绍及其在 Python 中的实现。1.超平面(Hyperplane): 在 n 维空间中,超平面是一个 n-1 维的平面,用于分割不同类别的数据点。在二维空间中,超平面是一条线;在三维空间中,超平面是一个平面。2.间隔(Margin): 超平面到最近数据点的距离。
2024-06-11 11:21:12 324
原创 Layer Normalization实战
在 Transformer 模型中,Layer Normalization(层归一化)是一种常见的技术,用于稳定训练过程,提高训练速度和模型性能。Layer Normalization 是在每一层的输入上进行标准化操作,使得每个输入的均值为 0,方差为 1,从而使训练过程更加稳定。稳定训练:通过标准化输入数据,Layer Normalization 可以加速训练过程,使得模型在训练时更加稳定。提高性能:在深层神经网络中,Layer Normalization 可以防止梯度消失或爆炸,从而提高模型性能。
2024-06-06 16:02:56 276
原创 sequence mask实战
在自回归生成任务中,模型在预测下一个词时只能利用当前词及其之前的词,而不能看到未来的词。Sequence Mask 通过将未来位置的注意力权重设为负无穷来实现这一点,这样在 softmax 操作后,这些位置的权重为零。在 Transformer 模型中,sequence mask 是一个重要的概念,尤其是在处理自回归模型(例如文本生成或翻译模型)的解码阶段时。Sequence Mask 通常在解码器的自注意力层中使用。它可以确保在计算每个位置的注意力时,只考虑当前位置及之前的位置,从而保持自回归特性。
2024-06-06 15:35:44 443
原创 padding_mask实战
Padding Mask 是一个布尔掩码矩阵,通常用于注意力机制中,来指示哪些位置是填充的。模型在计算注意力时会忽略这些填充位置,以避免对无意义的填充值进行处理,从而提高模型的有效性。
2024-06-06 15:25:05 416
原创 dropout实战
dropout:随机失活,在我们的神经网络中,对于使用dropout的那一层,随机的以一定的概率消除该层的神经单元,即把这层的一些神经单元的值设置为0。并把其他的值的除以(1-dropout)。假如我们的dropout为0.2,1-0.2=0.8。没失活的值除以0.8。
2024-06-06 10:36:39 231
原创 航空发动机数据检测
图像为大分辨率的涡轮发动机的类型与不同的缺陷情况模型YOLO准备在基础进行改进准备融入注意力机制和改进损失函数,以改变整个网络结构实验流程:找到数据集自己标注-->建立缺陷数据库-->用模型进行训练-->性能评估-->模型对比-->消融实验-->搭建缺线检测平台。
2024-03-20 16:48:01 226 1
LLAMA3 微调-量化-部署-应用一条龙
2024-09-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人