张博208-CSDN博客

原创 RLHF知识

然而，对生成结果的评估是主观和依赖上下文的，这些结果难以用现有的基于规则的文本生成指标 (如 BLUE 和 ROUGE) 来衡量。除了评估指标，现有的模型通常以预测下一个单词的方式和简单的损失函数 (如交叉熵) 来建模，没有显式地引入人的偏好和主观意见。因此，训练阶段，如果直接用人的偏好（或者说人的反馈）来对模型整体的输出结果计算reward或loss，显然是要比上面传统的“给定上下文，预测下一个词”的损失函数合理的多。：即使用强化学习的方法，利用人类反馈信号直接优化语言模型。

2023-03-24 11:39:07 1119

转载 HRNet网络简介

转载

2023-03-23 18:30:22 73

原创 diffusion models

diffusion models

2023-03-17 11:33:32 81

原创 Swin-Transformer网络结构详解

swin-transformer

2023-03-14 16:24:48 87

原创 Linux 编译链接动态库版本号

无论程序是否按libxxx.so.a.b.c格式命名，但Linux上差点儿全部动态库在编译时都指定了-soname，我们能够通过readelf工具查看soname，比方文章开头列举的两个动态库。这时候发现，生成了新的链接libhello.so.1，而main程序还是使用的libhello.so.0，所以无法使用新版动态库的功能，须要又一次编译才行。执行可执行文件时保证libxxx.so.a.b.c文件存在，通过ldconfig生成libxxx.so.a链接指向libxxx.so.a.b.c。

2023-01-31 11:32:44 956

原创 Changing input size of pre-trained models in Keras

https://ckyrkou.medium.com/changing-input-size-of-pre-trained-models-in-keras-3dfbe3ca3091

2023-01-19 16:06:34 145

原创多卡训练时设置batch_size和learning_rate

Linear Scale Rule:

2023-01-06 10:50:04 890

原创计算机视觉神经网络基础理论

基础问题

2022-12-09 14:56:35 1208

原创转置卷积中的棋盘效应

转置卷积中的棋盘效应_CtrlZ1的博客-CSDN博客_棋盘效应的原因

2022-11-28 11:19:58 195

原创 Python中import的用法

python 中的相对引用绝对引用

2022-11-21 11:46:23 880

原创 Neural Turing Machines-NTM系列

NTM是一种使用Neural Network为基础来实现传统图灵机的理论计算模型。利用该模型，可以通过训练的方式让系统“学会”具有时序关联的任务流。论文：http://arxiv.org/abs/1410.5401中文翻译：http://www.dengfanxin.cn/?p=60ppt:http://llcao.net/cu-deeplearning15/presentati

2022-11-03 09:30:45 373

原创 TensorRT概述

深度学习模型研发的生命周期包括五步：目标确认、任务建模、数据采集与标注、模型训练、模型部署。作为炼丹师，接触得最多的是前面四步，但是模型部署也是非常重要的一环，它是模型落地前的临门一脚。

2022-11-02 13:40:19 191

原创 Python Machine Learning Cookbook

import numpy as npfrom sklearn import preprocessingdata = np.array([[ 3, -1.5, 2, -5.4], [ 0, 4, -0.3, 2.1], [ 1, 3.3, -1.9, -4.3]])# mean removaldata_standardized ...

2022-11-02 09:39:13 176

原创 spark能传递外部命名参数给main函数吗？

查了资料好像都没有办法。只能通过： def main(args: Array[String]): Unit = { // 读取参数 var city = args(0) var input = args(1) var date = args(2)下标来获取。不过不确定，去stackoverflow发帖问下。https://stackoverflow.com/que...

2022-11-02 09:36:55 167

原创 Huber Loss function

Huber loss是为了增强平方误差损失函数（squared loss function）对噪声（或叫离群点，outliers）的鲁棒性提出的。DefinitionLδ(a)={12a2,δ⋅(|a|−12δ),for|a|≤δ,otherwise.Lδ(a)={12a2,for|a|≤δ,δ⋅(|a|−12δ),otherwise.参数aa通常表示residuals...

2022-11-02 09:35:34 150

转载 AI编译优化--总纲

随着AI模型结构的快速演化，底层计算硬件的层出不穷，用户使用习惯的推陈出新，单纯基于手工优化来解决AI模型的性能和效率问题越来越容易出现瓶颈。为了应对这些问题，AI编译优化技术已经成为一个获得广泛关注的技术方向。这两年来，这个领域也异常地活跃，包括老牌一些的、、、，以及最近呼声很高的，能够看到不同的公司、社区在这个领域进行着大量的探索和推进。本篇会先做一下整体介绍以及行业现状的分析。

2022-09-02 17:46:05 784

转载经典论文阅读笔记——VIT、Swin Transformer、MAE、CILP

学习

2022-09-01 21:59:27 91

原创 prompt learning 学习资料

学习资料

2022-09-01 18:34:46 258

原创多模态学习

多模态学习资料

2022-09-01 18:01:27 654

原创神经网络算子融合

算子融合技术

2022-09-01 16:01:13 883

转载 Pytorch自动混合精度(AMP)训练

Pytorch自动混合精度(AMP)训练_ytusdc的博客-CSDN博客_pytorch 混合精度训练

2022-09-01 08:32:32 75

原创如何在深度学习中使用自动混合精度训练

DL中的混合精度训练是同时使用单精度(32位)和半精度(16位)表示的过程。这是通过模型在FP32中为需要精度的计算保留一些训练来实现的，而在FP16中对精度不那么重要的其他计算进行训练。回归DL的基本训练原理，复习基础技术，可以缓解神经网络训练阶段的压力，优化GPU的使用。在本指南中，我们将更深入地探讨混合精度训练和自动混合精度训练，以及它如何保持神经网络训练阶段的准确性，同时减少训练所花费的时间。这里没有太多需要调整的地方，但这将是你的代码中支持混合精度训练的部分，所以要特别小心并仔细检查你的工作。..

2022-08-31 21:38:42 749

原创大规模模型训练tricks集锦

大规模模型训练其实就是在和计算、存储和通信玩的过程，所以我列一下跟这些相关的文章。一. 大规模模型并行策略先来介绍一下几种经典的并行范式，以及他们对应的经典文章。

2022-08-31 21:08:20 994 1

原创千亿参数“一口闷”？大模型训练必备四种策略

AI领域的许多最新进展都围绕大规模神经网络展开，但训练大规模神经网络是一项艰巨的工程和研究挑战，需要协调GPU集群来执行单个同步计算。随着集群数和模型规模的增长，机器学习从业者开发了多项技术，在多个GPU上进行并行模型训练。乍一看，这些并行技术令人生畏，但只需对计算结构进行一些假设，这些技术就会变得清晰——在这一点上，就像数据包在网络交换机之间传递一样，那也只是从A到B传递并不透明的位（bits）。三层模型中的并行策略。每种颜色代表一层，虚线分隔不同的 GPU。训练神经网络是一个迭代的过程。...

2022-08-31 21:06:33 616

原创 megatron学习总结

[细读经典]Megatron论文和代码详细分析(5)-T5-part 1-启动环境-data/tensor/pipeline并行 - 知乎[细读经典]Megatron论文和代码详细分析(2) - 知乎 megatron学习总结 - 知乎

2022-08-31 21:04:36 996

转载 Extreme-scale model training

我们于今年 2 月份。这是一个开源深度学习训练优化库，其中包含的一个新的显存优化技术—— ZeRO（零冗余优化器），通过扩大规模，提升速度，控制成本，提升可用性，极大地推进了大模型训练能力。DeepSpeed 已经帮助研究人员开发了图灵自然语言生成模型()，其在发表时为世界上最大的语言模型（拥有 170 亿参数），并有着最佳的精度。我们在 5 月份——支持有着 2000 亿参数的模型训练，与最新技术相比，训练速度可达 10 倍——以及一系列计算、IO 和收敛优化功能，从而助力最快速的 BERT 训练。...

2022-08-31 18:15:06 834

原创 Deep Learning compilation

Machine Learning CompilationMachine Learning Compilation — Machine Learing Compilation 0.0.1 documentation

2022-08-31 16:40:29 77

原创 OpenCL 介绍

GPU 优化技术-OpenCL 介绍 - 知乎。

2022-08-31 14:58:12 121

原创深度学习应用于Tabular数据的经验

深度学习应用于Tabular数据的经验 - 知乎

2022-02-16 17:13:07 1055

原创 Wide&Deep的进阶---Deep&Cross(DCN)模型理解与分析，附TF2.x复现

Wide&Deep的进阶---Deep&Cross(DCN)模型理解与分析，附TF2.x复现 - 知乎推荐系统之 Wide&Deep和Deep&Cross_Francis_s的博客-CSDN博客

2022-01-07 20:44:34 1684

原创 Conservative Q-Learning for Offline Reinforcement Learning

Conservative Q-Learning for Offline Reinforcement Learning_石磅溪涧的博客-CSDN博客（CQL）Conservative Q-Learning for Offline Reinforcement Learning_yxh的博客-CSDN博客

2022-01-07 20:21:32 418

转载 Class-Balanced Loss Based on Effective Number of Samples - 1 - 论文学习

https://arxiv.org/pdf/1901.05555.pdfskewed 倾斜的，歪斜的 heuristic 启发式的 interpolated插值 focal 焦点的 complementary 互补的 coverage 覆盖 tamable 可驯服的 intrinsic 内在的，本质的Abstract随着大规模、真实世界数据集的迅速增加，长尾数据分布问题的解决变得至关重要（即少数类占了大部分数据，而大多数类的代表性不足)。现有的解决方案通常采用类重新平衡策略，例如根据每个类的观察

2021-12-17 16:31:24 2076

原创多标签学习综述

多标签学习综述_我的博客-CSDN博客_多标签学习

2021-12-14 14:57:33 279

转载 Learning a Deep ConvNet for Multi-label Classification with Partial Labels

来源：CVPR2019下载链接：https://arxiv.org/abs/1902.09720本文目的：为了减少图片中多标签标注的成本，提出了一种训练模型的方式：训练模型的样本使用标签没有标注完整的图片；作者的贡献：1）比较了多标签数据集的标注方法，作者的方法证明了使用部分标注的所有图片效果好于标注了所有标签的小数据集；2）提出了一种scalable方法用于ConvNet去学习部分标签（使用了binary cross-entropy loss）;3）提出了一种预测丢失标签的方法，使

2021-12-14 12:13:23 746

转载 Learning a Deep ConvNet for Multi-label Classification with Partial Labels 论文笔记

Title: Learning a Deep ConvNet for Multi-label Classification with Partial Labels(2019)Link: Paper文章目录Abstract1. Introduction2. Related WorkLearning with partial / missing labels.Curriculum Learning / Never-Ending Learning.3. Learning with Partial

2021-12-14 12:06:36 390

转载因果表征学习最新综述：连接因果科学和机器学习的桥梁

导语处于信息时代的我们，有幸经历了轰轰烈烈的以数据为中心的大数据革命（涉及机器学习，深度学习及其应用，例如 Alpha-Go, GPT-3, 自动驾驶等），深刻改变了我们生活的方方面面。如今另外一场相对不那么广为人知，但是同样重要的因果革命正在进行，它以因果科学中心并席卷了各个领域，尤其是人工智能。近日，一篇探索让 AI 系统攀登因果之梯的深刻综述文章“Torwards Causal Representation Learning”引起了大家广泛的关注。该文章可以视作 Bernhard Schölkopf

2021-12-10 14:23:36 1574

原创向量空间模型算法( Vector Space Model )

NLP --- 文本分类（向量空间模型（Vector Space Model）VSM）_进击的菜鸟-CSDN博客_向量空间模型向量空间模型算法( Vector Space Model )_摸鱼大侠的博客-CSDN博客_向量空间模型

2021-12-07 20:39:03 487

转载 How Graph Neural Networks (GNN) work: introduction to graph convolutions from scratch

How Graph Neural Networks (GNN) work: introduction to graph convolutions from scratchNikolas Adaloglouon2021-04-08·12minsGraph Neural NetworksSIMILAR ARTICLESGraph Neural NetworksGraph Neural Networks - An overviewBest Graph Neural Network.

2021-12-01 15:33:08 664

原创 AutoDis: 连续型特征embedding新方法

An Embedding Learning Framework for Numerical Features in CTR PredictionKDD2021｜AutoDis: 连续型特征embedding新方法！ - 知乎总结该文章提出了AutoDis。该方法具有以下三种优点：1.高模型容量。2.自动离散化，端到端训练。3.连续特征embedding具有唯一的表示。感兴趣的同学可以动手实践下，该文章已开源[1]。笔者认为，该文章具有很好的借鉴价值，大家可以在自己的任务上或者业务中进行尝试...

2021-11-30 11:56:03 1478

转载 ESMM模型与ESM2模型总结

ESMM模型与ESM2模型总结_rotation博客-CSDN博客

2021-11-29 16:14:14 522

llama3 study

2024-07-25

tensorrt ppt资料

tensorrt的教程，和相关的资料，案例，供大家学习

2024-07-09

GPU-知识点资料合集

bank_conflicts coalescing

2023-08-03

Pro Go The Complete Guide -go语言学习最新书籍

Best-selling author Adam Freeman explains how to get the most from Go, starting from the basics and building up to the most advanced and sophisticated features. You will learn how Go builds on a simple and consistent type system to create a comprehensive and productive development experience that produces fast and robust applications that run across platforms 参见：https://www.amazon.com/Pro-Go-Complete-Programming-Efficient/dp/1484273540/ref=sr_1_1?crid=1K22H21ZB1EIZ&keywords=Pro+Go+The+Complete+G

2023-06-19

扩散模型讲义美国大学之一

2023-03-28

Advanced_Programming_in_the_UNIX_Environment，_3rd

Advanced_Programming_in_the_UNIX_Environment，_3rd_Edition very good book for unix user

2018-11-30

Pattern_Recognition_and_Big_Data

Pattern_Recognition_and_Big_Data 很好的资源，对于学习大数据的朋友来说

2018-09-07

图论引导中文

中文版本图论引导

2018-09-05

现代图论--------------

现代图论研究生教材适合大家学习与总结了

2018-09-05

Deep_Learning_Quick_Reference

Deep_Learning_Quick_Reference, a cookbook for deep learning

2018-09-01

Convex Optimization Algorithms

Convex Optimization Algorithms, understand convex optimization algorithms, this is good chances

2018-09-01

Guide.to.Medical.Image.Analysis.Methods.and.Algorithms

Guide.to.Medical.Image.Analysis.Methods.and.Algorithms very good book for computer vision

2018-09-01

machine learning algorithm

machine learning algorithm 想学习的可以好好学学了

2018-04-02

Python Machine Learning Machine Learning and Deep Learning

Python Machine Learning Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow, 2nd Edition 很受推荐

2018-03-27

Data Structures and Algorithms Using Python and C++

Data Structures and Algorithms Using Python and C++ 数据结构与算法方面的书籍

2018-03-27

R_for_Data_Science

R_for_Data_Science_－_Import，_Tidy，_Transform，_Visualize_and_Model_Data.rar

2018-03-27

深度学习之Pytorch

国内少有的学习 pytorch的资料,适合初学者, 希望对大家有帮助,清晰版本

2018-03-27

Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow

Table of Contents Giving Computers the Ability to Learn from Data Training Simple Machine Learning Algorithms for Classification A Tour of Machine Learning Classifiers Using Scikit-Learn Building Good Training Sets - Data Preprocessing Compressing Data via Dimensionality Reduction Learning Best Practices for Model Evaluation and Hyperparameter Tuning Combining Different Models for Ensemble Learning Applying Machine Learning to Sentiment Analysis Embedding a Machine Learning Model into a Web Application Predicting Continuous Target Variables with Regression Analysis Working with Unlabeled Data - Clustering Analysis Implementing a Multilayer Artificial Neural Network from Scratch Parallelizing Neural Network Training with TensorFlow Going Deeper - The Mechanics of TensorFlow Classifying Images with Deep Convolutional Neural Networks Modeling Sequential Data using Recurrent Neural Networks

2018-03-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

llama3 study

tensorrt ppt资料

GPU-知识点资料合集

Pro Go The Complete Guide -go语言学习最新书籍

扩散模型讲义 美国大学之一

Advanced_Programming_in_the_UNIX_Environment，_3rd

Pattern_Recognition_and_Big_Data

图论引导 中文

现代图论--------------

Deep_Learning_Quick_Reference

Convex Optimization Algorithms

Guide.to.Medical.Image.Analysis.Methods.and.Algorithms

machine learning algorithm

Python Machine Learning Machine Learning and Deep Learning

Data Structures and Algorithms Using Python and C++

R_for_Data_Science

深度学习之Pytorch

Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow

Approximate.Dynamic.Programming.2011

计算群体智能基础

Swarm Intelligence Principles Advances and Applications

Reinforcement Learning With Open A TensorFlow and Keras Using Python.pdf

Fundamentals of Deep Learning完整非扫描版本2017

Data Wrangling with R

NLTK基础教程-用NLTK和Python库构建机器学习应用2017-06

Text Mining in Practice with R 2017.12

Text_Mining－From_Ontology_Learning_to_Automated_Text_Processing_Applications

Python Natural Language Processing最新版本

Mastering Scipy

Elegant SciPy

Tensorflow 机器学习参考手册2007

reinforcement learning An Introduction 第二版

Spark大数据处理技术 带标签 完整版

TensorFlow技术解析与实战 高清晰完整版- 2017新书

TENSORFLOW深度学习

模式分类11

集体编程智慧

敏捷软件开发：原则、模式与实践

面向对象方法原理与实践

ollydbg 教程

空空如也

扩散模型讲义美国大学之一

图论引导中文

Spark大数据处理技术带标签完整版

TensorFlow技术解析与实战高清晰完整版- 2017新书