ML
文章平均质量分 51
艾鹤
敏于行,敏于言,千里之行始于足下。
展开
-
[LLM][FT]大模型Fine-Tuning相关技术0
LLM,微调,大模型,加速,分布式训练原创 2024-02-27 18:05:01 · 366 阅读 · 0 评论 -
cuda/cudnn/cuda 10.1安装教程
准备材料下载地址&安装教程:https://developer.nvidia.com/cuda-toolkit-archive安装过程cuda 10.1 安装示例:#下载安装包wget https://developer.download.nvidia.cn/compute/cuda/10.1/secure/Prod/local_installers/cuda_10.1.16...原创 2020-03-09 15:53:00 · 8625 阅读 · 1 评论 -
pytorch/torch安装简明教程
pytorch/torch安装简明教程原创 2022-09-09 17:37:13 · 2818 阅读 · 0 评论 -
[论文分享/阅读]Normalization/正则化分享总结
Normalization/正则化综述与底层原理原创 2022-07-28 18:36:48 · 274 阅读 · 3 评论 -
[技术调研]数据不平衡解决方法调研
数据不平衡解决方法调研原创 2022-07-28 18:30:18 · 167 阅读 · 0 评论 -
[论文阅读]NeurIPS 2021论文预讲会总结
NeurIPS 2021论文预讲会总结原创 2022-07-28 18:26:11 · 275 阅读 · 0 评论 -
模型的可解析性&特征重要性调研
概念https://zhuanlan.zhihu.com/p/51506824概要https://christophm.github.io/interpretable-ml-book/index.htmlhttps://zhuanlan.zhihu.com/p/141013178决策树之类/NNimportancehttps://shimo.im/docs/25q5Mm4PK6iaExqD/ 《重要性分析调研》通用模型可解释性LIMEhttps://zhuanlan.zhihu.com/p/3原创 2022-06-03 16:43:05 · 133 阅读 · 2 评论 -
信息论相关知识-熵
1.交叉熵参见:https://zhuanlan.zhihu.com/p/56638625进一步说明:2.相对熵(也称之为:KL散度)3.互信息互信息越大,说明X越依赖于Y,Y透露出的信息越大ref:各种熵的介绍原创 2022-05-30 09:40:25 · 154 阅读 · 0 评论 -
多分类loss、softmax loss与交叉熵的关系
0、引子:多分类loss采用的是softmax loss,也可称之为softmax交叉熵loss,这个loss中的q就使用的是模型的softmax输出,它就是用来拟合真正的§编码长度的期望交叉熵越低,这个策略就越好,最低的交叉熵也就是使用了真实分布所计算出来的信息熵,因为此时 ,交叉熵 = 信息熵。这也是为什么在机器学习中的分类算法中,我们总是最小化交叉熵,因为交叉熵越低,就证明由算法所产生的策略最接近最优策略,也间接证明我们算法所算出的非真实分布越接近真实分布。参见:https://www.cnbl原创 2022-05-30 09:37:40 · 1686 阅读 · 0 评论 -
AutoML之自动超参调优
一、自动超参调优(炼丹自动化)简介: 超参自动调优NNI(重点)NNI文档:https://nni.readthedocs.io/zh/stable/Tutorial/QuickStart.htmlNNI代码:https://github.com/microsoft/nni/blob/master/README_zh_CN.md视频教程:https://www.bilibili.com/video/BV1SA411x7TB二、AUTOML(炼丹全流程自动化)1.简介其AutoML从特征工程原创 2022-05-28 19:30:53 · 477 阅读 · 0 评论 -
词向量存pkl格式
import osimport numpy as npdef load_cn_wiki_wordvec(s_word_vec_path): n_vocab_num = 0 n_word_dim = 0 m_word_vec ={} m_word_id = {} with open(s_word_vec_path, "r", encoding="utf-8") as fp: for i, s_line in enumerate(fp):原创 2022-04-25 10:12:08 · 525 阅读 · 0 评论 -
预训练模型汇总:下载地址&综述
常见类似bert,albert,roberta, bart等预训练模型下载地址汇总原创 2022-02-28 16:24:55 · 2494 阅读 · 0 评论 -
模型格式转换
albert模型TensorFlow转pytorch格式代码见github原创 2022-02-28 16:16:31 · 603 阅读 · 0 评论 -
【论文阅读】Dimensionality Reduction by Learning an Invariant Mapping
1.背景对比学习算是比较早就已经提出了一种技术。其中,早期比较有名的一篇文章就是Lecun等在《Dimensionality Reduction by Learning an Invariant Mapping》(简称 DrLIM)文章中提出的对比学习,它主要是通过NN(非线性function)+对比学习任务实现降维,不过当前主要用于作为多任务的一个任务提升模型效果。这篇文章提出的一段时间以来,对比学习的研究主要集中在CV领域。尤其是最近,自监督学习的兴起,CV领域的一些知名学者又对此做了新的探索,带起原创 2021-08-03 11:33:03 · 1366 阅读 · 2 评论 -
【论文阅读】Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics
1.背景目前,很多应用中都因为用了多任务取得了不错的效果,那么如何将这些任务的loss有机组合在一起?一种简答粗暴方法就是手动调节多任务之间的loss的相对权重,然后加和,如下:这种方式把权重作为超参调试的方式,往往耗时耗力。本文参考[1]就如何动态设置多任务(分类与回归)之间的loss的相对权重做简单介绍。2.解决方案在贝叶斯建模中,认为模型有一些不确定性(随机变量),可能是先验问题导致的,也有可能是后验问题导致的,大体可将其分为两种,如下:认知不确定性:数据不足导致的模型学习不足的不确原创 2021-08-03 11:31:54 · 1561 阅读 · 4 评论 -
【FAQ】roberta‘s vocab file must a json file/中文roberta使用方法
在使用transformers中,使用中文roberta预训练模型,出现如下:roberta’s vocab file must a json fileroberta模型加载失败1.how?官网https://huggingface.co/hfl/chinese-roberta-wwm-ext介绍预训练模型使用方法https://github.com/ymcui/Chinese-BERT-wwm中提到①依托于Huggingface-Transformers 2.2.2,可轻松调用以上(RBT,原创 2021-05-11 11:01:44 · 753 阅读 · 0 评论 -
python时间操作
须知通常的时间戳是从1970-01-01 00:00:00开始算的格式化操作默认时间格式修改datetime.datetime(2020, 12, 10, 14, 55, 36, 705048) --> '2020-12-10 14:55:24'now=datetime.datetime.now()now.strftime('%Y-%m-%d %H:%M:%S')时长格式化比如:52950 -> 00:55:24def ms2hms(ms): import time原创 2020-12-10 15:33:35 · 153 阅读 · 0 评论 -
【ML】相关性分析&回归分析
1、背景2、相关工作2.1 相关性分析&回归分析t检验:小样本的统计分析方法,通过比较不同数据的均值,研究两组数据是否存在差异https://www.matongxue.com/madocs/580/https://zhuanlan.zhihu.com/p/124072225方差分析:判断多组间之间的差距性https://www.zhihu.com/question/61319844相关分析之相关系数:度量两个变量之间线性相关的方向和强度的测度https://blog.csdn.n原创 2020-10-27 12:00:21 · 663 阅读 · 0 评论