- 博客(178)
- 资源 (1)
- 问答 (1)
- 收藏
- 关注
原创 pytorch 梯度更新过程
请注意,这只是一个简单的示例,实际上的训练过程可能会包含更多的步骤和逻辑,例如数据加载、批量处理、学习率调整等。但是,上述代码片段展示了训练中的核心步骤。优化器根据计算得到的梯度值和设定的优化算法(如随机梯度下降)来更新模型参数。在每次迭代之前,需要将梯度归零,以避免梯度累积影响下一次迭代的计算。通过这三个步骤的循环迭代,可以逐渐优化模型的参数,使其在训练数据上逐渐拟合目标。方法,PyTorch 会自动计算梯度,并将梯度值存储在每个参数的。: 这一步用于计算损失函数关于模型参数的梯度。
2024-05-10 20:22:57 469
原创 解决pytorch训练的过程中内存一直增加的问题
oss['loss'] += loss.item() 以及 eval_loss['loss'] += loss.item()。值得注意的是,要复现内存越来越大的问题,模型中需要切换model.train() 和 model.eval(),train_loss以及eval_loss的作用是保存模型的平均误差(这里是累积误差),保存到tensorboard中。
2023-12-13 10:28:59 1410
原创 【调参Tricks】WhiteningBERT: An Easy Unsupervised Sentence Embedding Approach
一个猜测是,预训练语言模型生成的各个句向量应该在坐标系中的各个位置是相对均匀的,即表现出各项同性。以余弦相似度作为向量相似度衡量的指标的是建立在“标准正交基”的基础上的,基向量不同,向量中各个数值所代表的的意义也变不一样。然后经过BERT抽取之后的句向量所处的坐标系可能并非基于同一个“标准正交基”的坐标系。根据苏神的博客,只保留SVD提取出来的前N个特征值可以提升进一步的效果。并且,由于只保留了前N个特征,故与PCA的原理类似,相当于对句向量做了一步降维的操作。
2022-10-20 15:02:10 392
原创 pytorch问题:found at least two devices, cuda:0 and cuda:1!
RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda:0 and cuda:1!
2022-10-18 23:34:07 3905
原创 HJ61 放苹果
牛客地址:放苹果'''放苹果分为两种情况,一种是有盘子为空,一种是每个盘子上都有苹果。令(m,n)表示将m个苹果放入n个盘子中的摆放方法总数。1.假设有一个盘子为空,则(m,n)问题转化为将m个苹果放在n-1个盘子上,即求得(m,n-1)即可2.假设所有盘子都装有苹果,则每个盘子上至少有一个苹果,即最多剩下m-n个苹果,问题转化为将m-n个苹果放到n个盘子上,即求(m-n,n)'''def f(m,n): if m<0 or n<0: return .
2022-05-10 23:54:01 150
原创 面试手撕KNN算法
直接上代码# 参考# https://zhuanlan.zhihu.com/p/59755939# https://zhuanlan.zhihu.com/p/165130369from collections import Counterfrom sklearn import datasetsfrom sklearn.model_selection import train_test_splitimport numpy as npiris = datasets.load_iris()
2022-04-20 11:52:44 1158
原创 面试手撕kmeans算法
# 直接上代码import randomdef main(data_path, k): # 加载数据 input_list = input_data(data_path) # 初始化聚簇中心 center_list = random_center(input_list, k) # kmeans算法,终止条件为 start中心与end中心一致 result = kmeans(input_list, center_list, k) .
2022-04-19 20:35:50 1111
原创 图解AUC和GAUC
转自:图解AUC和GAUC - 知乎网上看过不少关于AUC和GAUC的材料,但是都是文字描述,一点也不直观, 因此萌生了使用图解的方式详细剖析一下AUC和GAUC的想法,也希望以此能帮助大家快速理解概念。其中,说到AUC就不得不提ROC曲线,因此这里分三个部分来解读:ROC、AUC、GAUC。一、ROC前身:通用的对分类模型的评价步骤1:给定样本如图A:其中绿色为正样本,红色为负样本;步骤2:训练一个机器学习模型,然后用这个模型对每个样本计算得到一个预测概率,这个概率值在[0, 1]范围
2022-04-14 15:45:12 1080
原创 推荐系统中的bias&&debias:position bias的消偏
原文:推荐系统中的bias&&debias(二):position bias的消偏_贝壳er的博客-CSDN博客前面提到过position bias,即用户倾向于点击排在前面的结果,这使得“优势位置”的item会获得更高的后验点击率。这本质上是和用户的注意力,用户对item的情绪有关,而和用户的真实兴趣无关,这显然是不利用推荐模型的学习的。关于position bias的消偏,主要有以下几种:方法一:将位置信息作为特征加入到模型的输入中这是最简单的一种消偏方式,在训.
2022-03-04 17:41:03 736
原创 CTR/推荐系统中多任务/多目标学习应用概述文章汇总
来源:CTR/推荐系统中多任务/多目标学习应用概述文章汇总 - 知乎1.文章吴海波:电商多目标优化小结(2019.8-267)SunSuc:推荐系统中如何做多目标优化(2019.12-163)梦想做个翟老师:Multi-task多任务模型在推荐算法中应用总结1(2019.12-74)梦想做个翟老师:Multi-task多任务学习在推荐算法中应用(2)(2019.12-152)千寻:Multi-task多任务学习在推荐算法中的应用(2020.3-201)彭红卿:ocp...
2022-03-04 14:53:51 1068
原创 刀功:谈推荐系统特征工程中的几个高级技巧
作者:知乎石塔西,原链接刀功:谈推荐系统特征工程中的几个高级技巧 - 知乎前言记得我入算法这一行的第一份工作面试的时候,最终的boss面的面试官是前微软工程院的副院长。面试进行得很顺利,不免向前院长卖弄一番,谈了谈我对算法的理解。我说算法工程师就好比厨师,模型是灶上功夫,而数据预处理+特征工程就好比刀工。再好的食材,不切不洗,一古脑地扔下锅,熟不熟都会成问题,更甭提味道了。好的刀工能够将食材加工成合适的形状,无需烈火烹油,也能做出好味道。同理,特征工程做得好,简单模型也能做出不错的效果,当然有.
2022-03-03 20:20:29 228
原创 Difference between numpy.array shape (R, 1) and (R,)
import numpy as npa = np.array([1,2,3,4])print(a)print(a.shape)a.shape = [4, 1]print()print(a)print(a.shape)python - Difference between numpy.array shape (R, 1) and (R,) - Stack Overflow
2022-03-02 20:38:11 681
原创 ERNIE1.0, 2.0模型原理介绍
持续学习语义理解框架ERNIE:https://aistudio.baidu.com/aistudio/projectdetail/1244949ERNIE/ERNIE 2.0 原理解析https://suixinblog.cn/2019/11/ernie.html关于ERNIE更详细的介绍,可以参考这两篇学术论文:ERNIE: Enhanced Representation through Knowledge Integration ERNIE 2.0: A Continual Pre-..
2022-03-02 17:51:52 569
原创 bert中的cls和sep等等
一般我们就用训练集出一个模型,然后可以在其他的代码里读取这个模型来使用。其他的代码就是所谓的下游任务(比如·什么分类、NER什么的)。BERT只是出一个词向量,这个向量不接任务你也看不出什么东西。这种分开训的就叫pipline,如果bert和下游任务一起训就叫end-to-endBERT的输入可以包含一个句子对 (句子 A 和句子 B),也可以是单个句子。此外还增加了一些有特殊作用的标志位:转载[CLS]标志放在第一个句子的首位,经过 BERT 得到的的表征向量 C 可以用于后续的分类任务。[S..
2022-03-02 16:55:39 3227
原创 paddle softmax_with_cross_entropy 的用法
import numpy as npimport paddle.fluid as fluidimport paddlelogit_y = np.array([[1.23, 2.33, 3.33, 2.11], \ [5.23, 2.33, 3.33, 2.11], \ [1.23, 8.33, 3.33, 2.11], \ [1.23, 2.33, 3.33, 2.11]]).a.
2022-03-01 16:38:33 716
原创 开发机和Mac文件互传
1.从开发机下载:端口:8000-9000命令:python -m SimpleHTTPServer 8012(到需要下载文件的目录下执行)MAC浏览器访问:开发机hostname:8012下载文件:右键复制链接下载2.上传到开发机1,开发机监听:nc -l 8180 > file.tar.gz2,MAC发送:nc -w 1hostname8180 < file.tar.gz比如:nc -w 1gzhl-ns-orp085-hsc1701.gzhl.ba...
2022-01-28 15:06:28 1793
原创 55. 跳跃游戏
思路参考:力扣https://leetcode-cn.com/problems/jump-game/solution/pythonji-bai-97kan-bu-dong-ni-chui-wo-by-mo-lan-4/代码:class Solution: def canJump(self, nums: List[int]) -> bool: max_dis = 0 for inx, value in enumerate(nums): ...
2021-10-06 12:48:17 258
原创 740. 删除并获得点数
和《打家劫舍》比较相像,思路参考:力扣https://leetcode-cn.com/problems/delete-and-earn/solution/zhe-xiao-tou-you-lai-qiang-jie-liao-ta-z-w29x/代码:class Solution: def deleteAndEarn(self, nums: List[int]) -> int: nums_uniq_list = [] char_sum...
2021-10-06 12:12:07 115
原创 python多进程读写文件
python多进程读写文件#encoding:utf-8 import numpy as np import sysimport timeimport threadingfrom queue import Queue np.random.seed(1)# Same with n_compute_threadsREAD_BATCH_SIZE=25WRITE_BATCH_SIZE=25# read_queuer_q = Queue(READ_BATCH_SIZE)
2021-09-22 20:01:53 1149
原创 深度学习之前馈神经网络(前向传播和误差反向传播)
转自:https://www.cnblogs.com/Luv-GEM/p/10694471.html这篇文章主要整理三部分内容,一是常见的三种神经网络结构:前馈神经网络、反馈神经网络和图网络;二是整理前馈神经网络中正向传播、误差反向传播和梯度下降的原理;三是梯度消失和梯度爆炸问题的原因及解决思路。一、神经网络结构目前比较常用的神经网络结构有如下三种:1、前馈神经网络前馈神经网络中,把每个神经元按接收信息的先后分为不同的组,每一组可以看做是一个神经层。每一层中的神经元接收前一层神经元的输出
2021-04-02 11:10:16 4102 1
原创 Hadoop 取文件夹下的个数
hadoop fs -lsr [目标路径] | grep "^-"| wc -l取到的是统计文件夹下文件的个数,包括子文件夹里的。https://www.cnblogs.com/qoyi/archive/2012/02/19/2358182.html
2021-02-26 15:19:07 1061
原创 threading 并行Python任务
# http://www.uml.org.cn/python/201901221.aspimport threadingimport urllib.requestimport timedef download_image(url, filename): print("download txt from {}".format(url)) urllib.request.urlretrieve(url, filename) print("download done!")def ex.
2021-02-25 19:30:19 220
原创 使用Joblib并行运行Python代码
from multiprocessing import cpu_countfrom joblib import Parallel, delayedimport time# (1) paralleldef func(_input): time.sleep(1) return _input * 3start_time = time.time()cpu_count = cpu_count()print("cpu_count = ", cpu_count)out = P.
2021-02-25 19:23:20 601
原创 推导余弦距离和欧式距离的关系
摘自:https://blog.csdn.net/moreaction_/article/details/106335586
2021-01-08 20:47:03 470
原创 84. 柱状图中最大的矩形
https://leetcode-cn.com/problems/largest-rectangle-in-histogram/方案:https://leetcode-cn.com/problems/largest-rectangle-in-histogram/solution/84-by-ikaruga/class Solution: def largestRectangleArea(self, heights: List[int]) -> int: .
2021-01-03 14:53:07 90
原创 ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT
今天分享的是ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT,论文地址:https://arxiv.org/pdf/2004.12832.pdf
2020-12-06 20:43:50 907
原创 sklearn概述
sklearn有6类:分类(Classification)回归(Regression)聚类(Clustering)降维(Dimensionality Reduction)模型选择(Model Selection)预处理(Preprocession)
2020-12-06 16:42:33 131
原创 python - matplotlib
你要的都在这里:官网链接:https://matplotlib.org/gallery/index.html
2020-11-28 14:12:44 201
原创 2. 两数相加
class Solution {public: ListNode* addTwoNumbers(ListNode* l1, ListNode* l2) { ListNode* head = new ListNode(-1); auto* tail = head; int carry = 0; while (l1 || l2 || carry){ int sum = (l1? l1->val:0...
2020-11-25 23:59:55 88
原创 Keras的imdb和MNIST数据集无法下载问题解决
keras框架为我们提供了一些常用的内置数据集。比如,图像识别领域的手写识别MNIST数据集、文本分类领域的电影影评imdb数据集等等。数据地址:链接: https://pan.baidu.com/s/138a6cbP_Pn-dQNIxaio0aw 提取码: sxih...
2020-11-25 23:25:21 208
原创 1. 两数之和 C++
class Solution {public: vector<int> twoSum(vector<int>& nums, int target) { // 定义返回格式 unordered_map<int, int> hashtable; // 定义字典 for (int i=0; i < nums.size(); ++i){ auto it = hashtable.find(t...
2020-11-24 23:20:36 619 1
原创 UnicodeEncodeError: ‘ascii‘ codec can‘t encode characters in position 4-8: ordinal not in range(128)
import sysreload(sys)sys.setdefaultencoding('utf-8')
2020-11-16 23:42:39 177
原创 数据分析必备,一文了解pandas
一、简介Pandas是Python的一个数据分析包,它是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。Pandas提供了大量能使我们快速便捷地处理数据的函数和方法。二、数据结构数据结构: 系列(Series) 数据框(DataFrame) 面板(Panel) (多个series→ 多个数据框→ 面板)。这些数据结构构建在Numpy数组之上,这意味着它们很快。导入包 ...
2020-11-14 15:07:25 518
CASIA-WebFace 数据(百度云)
2018-02-01
TA创建的收藏夹 TA关注的收藏夹
TA关注的人