- 博客(50)
- 收藏
- 关注
原创 安装anaconda后jupyter notebook打不开 闪退
之后找到了appdata里面的runtime文件,删掉,重新打开jupyter noptebook,发现可以了!尝试打开jupyter,发现小黑框1s后自己关了,根本不打开浏览器。首先,通过清华源安装了最新的anaconda(安装在了D盘)之后尝试按照这个做了一遍。
2024-07-18 13:52:00 342
原创 GloVe: Global Vectors for Word Representation论文笔记解读
虽然semantic评估有略微增长,但是维度增加,对资源的消耗也会增加,所以考虑到成本,一般会选择300作为最终的维度。【在类比任务上做得更好,但它们很少利用语料库的统计数据,因为它们在单独的局部上下文窗口上训练,而不是在全局共出现计数上训练。Glove模型:融合了当时最新的全局矩阵分解方法和局部文本框捕捉方法,即全局词向量表达,利用了全局词词共现矩阵中的非0数据来训练。第三个是指窗口不对称,也就是说只考虑前面或者后面的单词,维度固定的情况下,窗口大小对模型的影响。展示了三个不同超参数对最终结果的影响。
2024-07-12 13:29:05 673
原创 Distributed Representations of Words and Phrases and their Compositionality论文笔记解读
连续Skip - gram模型,不涉及密集矩阵乘法,是一种高效的学习高质量分布式向量表示的方法,它能捕获大量精确的句法和语义单词关系。解决罕见词和频繁词之间的不平衡,我们采用了一种简单的子抽样方法:将训练集中的每个单词wi丢弃,由公式计算概率。负抽样和NCE的主要区别在于,NCE既需要样本,也需要噪声分布的数值概率,而负抽样只使用样本。频繁的单词(例如In、the和a)提供的信息价值比罕见的词少。分层softmax的一个简单的替代方法——负采样。解决罕见词和频繁词之间的不平衡——子抽样方法。
2024-07-12 13:22:14 216
原创 Efficient Estimation of Word Representations in Vector Space论文笔记解读
将输出层的单词表示为一个二叉树,其中每个叶子节点都表示一个单词。每个非叶子节点都表示两个子节点的内积,每个叶子节点都表示该单词的条件概率。对于给定的一对(中心单词,上下文单词),我们希望最大化它们的共现概率。最后输出V个概率,复杂度比较高,采用了2重方法降低复杂度,分别是层次softmax和负采样。Word2vec的向量表示能够自动捕捉到单词之间的语义和语法关系。舍弃多分类,把多分类转变成二分类问题(正样本和负样本)。用周围词预测中心词,求和的时候忽略了每个词的顺序。增大正样本的概率,减小负样本的概率。
2024-07-09 15:40:47 629 1
原创 cs231n 作业3
RNN输出有两个方向,一个向上一层(输出层),一个向同层下一个时序,所以反向传播时两个梯度需要相加,输出层梯度可以直接求出(或是上一层中递归求出),所以使用dh(N,T,H)保存好,而同层时序梯度必须在同层中递归计算。(3)使用其他结构的RNNS,比如长短时记忆网络(LSTM)和 门控循环单元(GRU),这是最流行的做法。(1)合理的初始化权重值。初始化权重,使每个神经元尽可能不要取极大或极小值,以躲开梯度消失的区域。(2)使用 ReLu 代替 sigmoid 和 tanh 作为激活函数。
2024-07-07 14:06:00 481
原创 cs231n作业2 双层神经网络
还可以理解为dropout是一个正则化的操作,他在每次训练的时候,强行让一些feature为0,这样提高了网络的稀疏表达能力。Batch Normalization解决的一个重要问题就是梯度饱和。Forward: 计算score,再根据score计算loss。Backward:分别对W2、b2、W1、b1求梯度。使用slover来对神经网络进优化求解。卷积层的前向传播与反向传播。
2024-07-07 14:05:28 752
原创 cs231n作业1——Softmax
softmax其实和SVM差别不大,两者损失函数不同,softmax就是把各个类的得分转化成了概率。之后用随机梯度下降法优化损失函数,最后进行超参数的选择。
2024-07-07 14:04:52 395
原创 cs231n作业1——SVM
训练阶段,我们的目的是为了得到合适的 𝑊 和 𝑏 ,为实现这一目的,我们需要引进损失函数,然后再通过梯度下降来训练模型。为了获取最优的超参数,我们可以将整个训练集划分为训练集和验证集,然后选取在验证集上准确率最高的一组超参数。使用批量随机梯度下降法来更新参数,每次随机选取batchsize个样本用于更新参数 𝑊 和 𝑏。
2024-07-07 13:33:40 338
原创 cs231n作业1——KNN
使用函数np.split将训练集分成多个fold,然后使用np.vstack函数将多个fold合为本次的训练集。测试时分别计算测试样本和训练集中的每个样本的距离,然后选取距离最近的k个样本的标签信息来进行分类。所以编程时应当充分利用numpy的库特性,尽量使用向量化编程,不要使用for循环。利用numpy的广播机制,可同时计算一个测试集样本和所有训练集样本之间的距离。方法1时间 > 方法2时间 > 方法3时间。
2024-07-07 13:25:13 374
原创 cs224n作业3 代码及运行结果
找到parser.transition.py文件,打开,根据相应提示进行填充。(里面加了个import copy,因为跑run.py时报错说不认识copy)代码里面也有提示让你实现什么,弄懂代码什么意思基本就可以了,看多了感觉大框架都大差不差。多看多练慢慢来,加油!代码里要求用pytorch1.0.0版本,其实不用也可以的。【删掉run.py里的assert(torch.== “1.0.0”)即可】
2024-07-06 18:56:38 378
原创 斯坦福cs224n作业3上
会使小的值变大,大的值变小,从而梯度小的地方会得到更大的更新,梯度大的地方会得到更小的更新,减少震荡。dropout是一种正则化技术,可以减少过拟合,增加泛化性。而在评估过程中,我们。答:这种方式会使梯度变化不太大,方差小,减小震荡,可以更好地找到最小值。,所以不需要使用dropout。参数和一致输出之间的。
2024-05-22 14:08:12 621
原创 斯坦福cs224n课后题2024及代码报错处理全过程
首先,在下载了作业1(),按照它里面的README.md配置相应的环境,激活conda activate cs224n,进入作业代码jupyter notebook exploring_word_vectors.ipynb之后,运行了代码开始报错ImportError: cannot import name ‘triu‘ from ‘scipy.linalg‘,找到原因scipy版本问题,1.13.0太高了,于是降低版本就行,参考文章点击此处,我安装的scipy1.11.2也是可以的。
2024-05-17 16:21:18 863
原创 正则化 缓解过拟合
如果我们的权重向量增长的太大, 我们的学习算法可能会更集中于最小化权重范数。为了惩罚权重向量的大小, 我们必须以某种方式在损失函数中添加。:收集更多的训练数据、正则化。,将其他权重清除为零,用于。
2024-05-14 10:09:55 216
原创 降维 主成分分析PCA
当为0.01的时候,表示保留了99%的方差数据,即大部分的数据特征被保留了。PCA做的就是找到一个投影平面使得投影误差最小化。满足上面这个式子,就可以高效地选择出参数k。意思将数据从低维还原到高维的过程。
2024-05-08 21:52:07 321
原创 随机森林算法
随机森林已经用很多进行了细小修改的数据集来训练算法,并进行平均,所以即便训练集发生一些小变化,也不会对最终输出有很大影响。地从训练集中取出 n 个训练样本,组成新的训练集;(2)利用新的训练集,训练得到M个子模型;多个弱分类器组合成的强分类器。
2024-05-08 16:59:22 164
原创 决策树及其拓展 吴恩达课程
计算所有可能的信息增益,并选择最高的信息增益,根据选择的特征拆分数据集,并创建左右节点。在所有可能的决策树中,选择一个在训练集上表现良好,并能很好的推广到新数据(即交叉验证集和测试集)的决策树。单个决策树可能会对数据的微小变化高度敏感,即鲁棒性(意思稳定性差)很差。对每个决策树分别进行预测,最后统计结果,选择多数的结果作为最终预测结果。从根节点开始,一步一步划分,直到到达叶子节点,最后输出预测特征值。1.当某个节点的纯度为100%,即该节点的所有样本都属于一个类。3.当拆分节点后,信息增益小于阈值时。
2024-05-08 16:39:21 521
原创 吴恩达 深度学习 神经网络 softmax adam 交叉验证
输入层(layer 0)、隐藏层、卷积层(看情况用这个)、输出层。隐藏层一般用relu函数;输出层根据需要,二分类用sigmoid,多分类用softmax…
2024-05-08 14:47:44 1016
原创 逻辑logistic回归
主要用于zwTxbgx1e−x1将,如下图公式:逻辑回归的作用:输入特征x,并输出一个介于0和1之间的数,这个数为 标签y。
2024-05-07 14:32:42 931
原创 线性回归与多元线性回归 吴恩达
最常用的均方误差:y^hat: x预测出来的y值y:原训练样本中的y值,也就是标准答案用上面的公式可以算出w不同时,J的数是多少,最后做出J衡量平方误差有多少,所以要最小化w对应的值,使得模型最好。其可以用或者。
2024-05-06 17:01:59 601
原创 实验7-1-8 找出不是两个数组共有的元素
数组a中的第一个元素和数组b中元素一一比较,若相等就不存入新数组,然后第二个元素再和数组b中的元素一一比较循环往复。提交后发现格式不对,因为最后不能有空格,写个判断完事;验证过后发现输出结果有重复,所以进行去重;比较共有元素,存入数组中更容易比较;
2023-07-11 23:46:48 498 1
原创 实验4-2-1 求e的近似值
之后错误点就是函数设置的是int,所以s=s+1/fn就不对了,输出为2.00000000;所以要把1改为1.0(即s=s+1.0/fn)或者fn定义的时候为double.函数不太熟悉,fn(a)的话,a为10时,s就是1+1/10!
2023-05-17 23:14:32 167
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人