豫儿啊~-CSDN博客

原创大模型技术开发与应用

相较于此前的参数量较小的预训练语言模型，例如，3.3亿参数的Bert-large和17亿参数的GPT-2，GPT-3展现了在Few-shot语言任务能力上的飞跃，并具备了预训练语言模型不具备的一些能力。BLEU有许多变种，根据n-gram可以划分成多种评价指标，常见的评价指标有BLEU-1、BLEU-2、BLEU-3、BLEU-4四种，其中n-gram指的是连续的单词个数为n，BLEU-1衡量的是单词级别的准确性，更高阶的BLEU可以衡量句子的流畅性.实践中，通常是取N=1~4，然后对进行加权平均。

2024-09-03 16:20:15 493

原创 RNN及其变体

不改变原始的lSTM模型内部结构,只是将文本从左到右计算一遍,再从右到左计算一遍,把最终的输出结果拼接得到模型的完整输出。不改变原始的lSTM模型内部结构,只是将文本从左到右计算一遍,再从右到左计算一遍,把最终的输出结果拼接得到模型的完整输出。N Vs N : 输入和输出等长,应用场景:对联生成;1 Vs N : 输出是一个,输出为N,应用场景: 图片文本生成。N Vs M : 输入和输出不等长,应用场景: 文本翻译,摘要总结。N Vs 1 : 输入N,输出为单值,应用场景:文本分类。

2024-08-31 16:04:38 709

原创文本预处理

借助nn.Embedding(vocab_size,embed_dim):vocab_size代表词汇(去重之后)的总量,embed_dim是我们设定的词向量维度;目的:模型一般规定需要输入固定的尺寸,也就是长度统一,通过分析句子长度,可以明确大部分样本属于什么长度范围,然后进行句子的长短补齐或截断。目的:查询样本是否均衡,如果样本过大,需要减少数据;2.可以分析语料中可能存在的问题,指导我们设定模型的超参数等功能。词频:这里指的是统计样本中词汇的总数量(需要去重)2.训练模型(训练词向量)

2024-08-31 11:21:56 234

原创 NLP入门

定义:针对每一个词汇,都会用一个向量表示,向量的长度是n,n代表去重之后的词汇总量,而且向量只有0,和1两种数字。Word2Vec是一种无监督训练方法,本质是训练一个模型,将模型的参数矩阵当作所有词汇的词向量表示。一般实现模型训练的时候，模型接受的文本基本最小单位是词语，因此我们需要对文本进行分词。英文具有天然的空格分隔符，而中文分词的目的：寻找一个合适的分词边界，进行准确分词。文本预处理作用：将文本转换成模型能够识别的形式，进而实现模型的训练。在精确模式分词的基础上,将长粒度的词再次切分。

2024-08-30 15:41:44 625

原创深度学习--网络优化方法

梯度下降算法是一种寻找使损失函数最小化的方法,从数学上的角度来看,梯度的方向是函数增长速度最快的方向,那么梯度的反方向就是函数减少最快的方向。2.Batch_size:使用训练集中的小部分样本对模型权重进行以此反向传播的参数更新,每次训练每批次样本数量。反向传播:利用损失函数 ERROR, 结合梯度下降算法,依次求各个参数的偏导,并进行参数更新。前向传播: 指的是数据输入的神经网络,逐层向前传输,一直到运算到输出层为止.1.Epoch:使用全部的数据对模型进行以此完成训练,训练轮次。

2024-08-30 11:09:13 629

原创深度学习--损失函数

1.由于L1 loss具有稀疏性,为了惩罚较大的值,因此常常将其作为正则项添加到其他loss中作为约束.在深度学习中损失函数是用来衡量模型参数的质量函数,衡量的方式是比较网络输出和真实输出的差异。(MSE)损失也被称为L2 loss,或欧氏距离,它以误差的平方和的均值作为距离。2.L1 loss的最大问题是梯度在零点不平滑,导致会跳过极小值。(MAE)也被称为L1 Loss,是以绝对误差作为距离.回归任务损失函数-MAE损失。回归任务损失函数-MSE损失。1.L2 loss也常常作为正则项.

2024-08-30 11:08:17 704

原创特征变换,分箱

one-hot encoding（热编码）label encoding（标签编码）WOE encoding（WOE编码）降低异常值带来的影响。

2024-05-26 15:34:16 509

原创支持向量机SVM

在很久很久以前的情人节,大侠要去救他的爱人,但魔鬼和他玩了一个游戏魔鬼早桌子上似乎有规律放了两种颜色的球,说:"你用一根棍分开它们.要求:尽量在放更多球之后,仍然使用."让我们引入一个函数f(x),图像如下图所示.将x的每个值映射到其对应的输出.使得所有蓝点在Y轴的输出更大,而红点在Y轴的输出偏小.此时,我们可以使用一条水平线将数据完美分类。此时,求解当a是什么值时,该值会变得很大,当求出a值,在求解w,b值.此时,就变成了极大极小值问题。

2024-05-18 18:30:04 1355 1

原创机器学习------聚类

在聚类算法中根据样本之间的相似性,将样本互粉到不同的类别中,对于不同的相似计算方法,会得到不同的聚类结果,常用的相似度计算方法有欧式距离法。用户画像,广告推荐,Data Segmentation,搜索引擎的流量推荐,恶意流量识别。2.计算每一个样本i到最近簇j内的所有样本的平均距离bij,该值越大,说明该样本越不属于其他簇j。1.计算每一个样本 i 到同簇内其他样本的平均距离ai, 该值越小,说明簇内的相似程度越大。整形,缺省值=8,生成的聚类数,即产生的质心(centroids)数。

2024-05-17 18:21:44 859 2

原创特征降维~

在数据集中，删除方差低于 threshold 的特征将被删除，默认值是保留所有非零方差特征，即删除所有样本中具有相同值的特征。PCA 通过对数据维数进行压缩，尽可能降低原数据的维数（复杂度），损失少量信息，在此过程中可能会舍弃原有数据、创造新的变量。如果训练数据中包含一些不重要的特征，可能导致模型的泛化性能不佳。2. 我们希望特征独立存在，对预测产生影响，具有相关性的特征可能并不会给模型带来更多的信息，但是并不是说相关性完全无用。低方差过滤法指的是删除方差低于某些阈值的一些特征。主成分分析（PCA）

2024-05-16 17:06:18 506

原创朴素贝叶斯

2024-05-16 17:05:37 508

原创机器学习-----集成学习

Adaptive Boosting(自适应提升)基于Boosting思想实现的一种集成学习算法核心思想是通过逐步提高那些被钱一步分类错误的样本的权重来训练一个强分类器.弱分类器的性能比随机猜测强就行,即可构造出一个非常准确的强分类器.其特点是:训练时,样本具有权重,并且在训练过程中动态调整.被分错的样本的样本会加大权重,算法更加关注难分的样本。这种方法训练得到的模型复杂度较高，很容易出现过拟合。1.对特征值x进行排序.确定分裂点为:0.5,1.5,2.5,3.5,4.5,5.5,6.5,7.5,8.,5。

2024-05-15 20:55:05 1062

原创决策树(详细)

根据信息增益选择特征方式是: 对训练数据集D,计算其每个特征的信息增益,并比较它们的大小,并选择薪资增益最大的特征进行划分.表示由于特征A而使得对数据D的分类不确定性减少的程度。决策树是一种树形结构,树种每个内部节点表示一个特征上的判断,每个分支代表一个判断结果的输出,每个叶子节点代表一种分类结果。特征的信息增益 ÷ 特征的存在信息。信息增益率 = 信息增益 / 特征熵。3.使用该特征(信息增益最大的特征)作为决策树的一个节点。由于特征A而使得对数据D的分类不确定性减少的程度。[知道]c4.5树构建说明。

2024-05-13 15:29:02 846 1

原创逻辑回归(详细)

设模型中含有待估参数w,可以取很多值.已经知道了样本观测值,从w的一切可能值中(选出一个使该观察值出现的概率为最大的值,作为w参数的估计值,这就是极大似然估计.(顾名思义:就是看上去那个是最大可能的意思)精确率也叫做查准率，指的是对正例样本的预测准确率。3. 真实值是假例的样本中，被分类为正例的样本数量有多少，这部分样本叫做伪正例（FP，False Positive）1. 真实值是正例的样本中，被分类为正例的样本数量有多少，这部分样本叫做真正例（TP，True Positive）

2024-05-11 20:23:12 1112 1

原创线性回归(详细)

当函数 y=f(x)的自变量x在一点 X上产生一个增量Δx时，函数输出值的增量Ay与自变量增量Ax的比值在Ax趋于0时的极限A如果存在，A即为在X处的导数，记作f'(Xo)过拟合:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在测试数据集上却不能很好地拟合数据(体现在准确率下降),此时认为这个假设出现了过拟合的现象,(模型过于复杂)在学子的时候,数据提供的特征有些影响模型复杂度或者这个特征的数据点异常较多,所以算法在学习的时候尽量减小这个特征的影响(甚至删除某个特征的影响),这就是正则化。

2024-05-10 15:46:03 1052

原创线性回归~

线性回归是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。因为求解的w,都是w的零次幂(常数项)所以叫成线性模型。为简化计算,先固定截距b,x=0时, b可设置成一个负值,b固定成-100。* 引入损失函数(衡量预测值和真实值效果)Loos(k,b)* 通过一个优化方法,求损失函数最小值, 得到k最优解。2 在线性回归中,从数据中获取的规律其实就是学习权重系数w。损失函数就是关于k, b的函数,展开会变成二元二次方程。[知道]线性回归分类。

2024-05-08 13:41:22 445

原创超参数选择的方法

只需要将若干参数传递给网格搜索对象,它自动帮我们完成不同超参数的组合,模型训练,模型评估,最终返回一组最优的超参数.交叉验证是一种数据集的分割方法,将训练集划分为n分,其中一份做验证集,其他n-1份做训练集。param_grid: 估计器参数(dict){"n_neighbors":[1,3,5]}5.若k=5模型得分最好, 在使用全部训练集(训练集+验证集)对k=5模型做评估。模型有很多超参数,其能力也存在很大的差异.需要动手产生很多超参数组合,来训练模型。两个组合再一起形成一个模型参数调优的解决方案。

2024-05-06 18:30:37 619 1

原创 KNN算法

闵可夫斯基距离 minKowski Distance 闵式距离, 不是一种新的距离的度量方法 .而是距离的组合是对多个距离度量公式的概括性的表述。两个n维变量a(x11,x12,...,x1n)与b(x21,x22,...,x2n)间的民可夫斯基距离定义为。n维空间点a(x11,x12,...,x1n)与b(x21,x22,x2n)的切比雪夫距离。n维空间点a(x11,x12,...,x1n)与b(x21,x22,x2n)的曼哈顿距离。k值过小: 相当于较小领域中的训练实例进行预测容易受到异常点的影响。

2024-05-05 20:19:25 1267

djylovehzt的博客