深度学习
文章平均质量分 91
AI深度学习领域相关的算法,实战,学习,项目分享。
快乐小码农
热爱生活,热爱技术,做一个有态度的四有“中年人”。关注科技进步,聚焦人工智能领域的前沿研究:经典AI、NLP、机器学习、数据挖掘、推荐系统等相关技术。人生不易,勇往直前,分享生活中的小确幸。
展开
-
谷歌发布史上最大「机器人、视觉和语言“通才”」模型:PaLM-E 562B
2023年3月6日,Robotics at Google、柏林工业大学和 Google Research 团队提出了一个具身多模态语言模型 PaLM-E,通过 PaLM-540B 语言模型与 ViT-22B 视觉Transformer模型相结合,足足有5620亿参数,可以称之为「史上最大视觉语言模型(VLM)」,无需特殊训练就可执行各种任务。PaLM-E 不仅可以理解图像,还能理解、生成语言,而且竟然还能将两者结合起来,处理复杂的机器人指令。原创 2023-03-17 12:07:12 · 573 阅读 · 0 评论 -
必读:2022年被引用最多的100篇人工智能论文
谁在发表最具影响力的人工智能研究?随着人工智能创新的飞速发展,尽快获取一些「信号」至关重要。没有人有时间和精力去阅读所有相关的AI研究内容,但细致分析AI领域高被引的100篇论文肯定会让我们对人工智能技术走向有所了解。原创 2023-03-17 11:11:41 · 2072 阅读 · 0 评论 -
一文详解 ChatGPT:背后的技术,数据,未来发展
LM有基于大量训练数据的天然的迁移学习能力,但要在新域上获得较好的性能,使用Fine-tuning,就要求重新多次训练预训练模型,导致吃内存。ChatGPT 的卓越表现得益于其背后多项核心算法的支持和配合,包括作为其实现基础的 Transformer 模型、激发出其所蕴含知识的 Prompt/Instruction Tuning 算法、其涌现出的思维链(COT)能力、以及确保其与人类意图对齐的基于人类反馈的强化学习(RLHF)算法。Prompt Tuning的本质是改变任务格式,从而迎合大模型的性能。原创 2023-03-17 10:36:06 · 10854 阅读 · 0 评论 -
谷歌推出新优化器Lion:优化算法的符号发现
来自谷歌、 UCLA 的研究者提出了一种通过程序搜索发现深度神经网络训练的优化算法,来自论文《Symbolic Discovery of Optimization Algorithms》。通过数千TPU小时的算力搜索并结合人工干预,得到一个更省显存且速度更快的优化器 Lion(EvoLved Sign Momentum),其在图像分类、图文匹配、扩散模型、语言模型预训练和微调等诸多任务上做了充分的实验,多数任务都显示 Lion 比目前主流的 AdamW 等优化器有着更好的效果。原创 2023-02-20 19:37:36 · 1694 阅读 · 0 评论 -
ChatGPT is not all you need,一文看尽SOTA生成式AI模型:6大公司9大类别21个模型全回顾(三)
上月,来自西班牙科米利亚斯主教大学(Comillas Pontifical University)的研究人员提交了一篇综述论文《ChatGPT is not all you need. A State of the Art Review of large Generative AI models》,将生成式模型按照任务模态、领域分成9大类,并总结了2022年发布的21个生成式模型的能力和局限性。这些局限性包括缺少特定任务下的大型数据集,以及需要高昂的计算资源等。原创 2023-02-15 20:25:24 · 3736 阅读 · 0 评论 -
ChatGPT is not all you need,一文看尽SOTA生成式AI模型:6大公司9大类别21个模型全回顾(二)
上月,来自西班牙科米利亚斯主教大学(Comillas Pontifical University)的研究人员提交了一篇综述论文《ChatGPT is not all you need. A State of the Art Review of large Generative AI models》,将生成式模型按照任务模态、领域分成9大类,并总结了2022年发布的21个生成式模型的能力和局限性。这些局限性包括缺少特定任务下的大型数据集,以及需要高昂的计算资源等。原创 2023-02-15 20:11:37 · 2343 阅读 · 0 评论 -
ChatGPT is not all you need,一文看尽SOTA生成式AI模型:6大公司9大类别21个模型全回顾(一)
上月,来自西班牙科米利亚斯主教大学(Comillas Pontifical University)的研究人员提交了一篇综述论文《ChatGPT is not all you need. A State of the Art Review of large Generative AI models》,将生成式模型按照任务模态、领域分成9大类,并总结了2022年发布的21个生成式模型的能力和局限性。这些局限性包括缺少特定任务下的大型数据集,以及需要高昂的计算资源等。原创 2023-02-15 19:59:12 · 2916 阅读 · 0 评论 -
NLP基础——语言模型(LM)
文章目录NLP基础:语言模型(LM)1. 模型评估(概率估计)2. 平滑方法3. LM在拼写纠正(Spell Correction)中的应用NLP基础:语言模型(LM)语言模型(LM,Language Model)就是用来判断某个句子是否语义通顺。首先对句子进行分词,句子的概率可以表示为各个词的联合概率:P(s)=P(w1,w2,...,wn)P(s)=P(w_1,w_2,...,w_n)P(s)=P(w1,w2,...,wn)。根据Chain rule: P(A,B,C,D)=P(A)P(B|原创 2022-04-17 21:36:57 · 3526 阅读 · 0 评论 -
最新发布:2022斯坦福AI指数报告
文章目录最新发布:2022斯坦福AI指数报告Part 1:2022 AI指数报告八大要点1.AI领域的私人投资飙升,投资集中度加剧。2.美国和中国主导AI跨国合作。3.语言模型更强大,但也更有偏见。4.AI伦理兴起。5.AI变得更负担得起、性能更高。6.数据,数据,数据,重要的事说三遍。7.关于AI的全球立法与日俱增。8.机械臂越来越便宜。Part 2:2022 AI指数报告五大版块解读第一章:研究与开发1.全球AI出版物数量上涨。2.各领域AI出版物总体上升。3.中国AI出版物数量世界领先,美国AI引用量原创 2022-03-28 09:32:10 · 7206 阅读 · 2 评论 -
NLP文本生成的评价指标有什么?
文章目录NLP文本生成的评价指标有什么?1. BLEU2. ROUGE2.1 ROUGE-N (将BLEU的精确率优化为召回率)2.2 ROUGE-L (将BLEU的n-gram优化为公共子序列)2.3 ROUGE-W (ROUGE-W 是 ROUGE-L 的改进版)2.4 ROUGE-S (Skip-Bigram Co-Occurrence Statistics)3. METEOR4. 参考NLP文本生成的评价指标有什么?NLP文本生成任务的评价指标有哪些?怎么判断模型好坏呢?如何解读指标的意义?例如原创 2022-03-19 09:31:18 · 6008 阅读 · 2 评论 -
NLP发展大事记:顶会,预训练大模型,BERT系列
NLP发展历程中的重要时间线,新手入门NLP顶会,BERT系列~原创 2022-03-11 10:32:23 · 3358 阅读 · 0 评论 -
TensorFlow版本的预训练模型与Pytorch版本的预训练模型的转换
TensorFlow版本的预训练模型与Pytorch版本的预训练模型的转换1. 方法1:Transformers的转换脚本方法1:请自行通过🤗Transformers提供的转换脚本进行转换。将TensorFlow版本模型转为Pytorch版本:https://huggingface.co/transformers/converting_tensorflow_models.html具体每个模型如何转为相应的Pytorch版本:https://github.com/huggingface/transfo原创 2022-03-09 18:41:21 · 3156 阅读 · 0 评论 -
常用的中文预训练模型、预训练词向量下载地址收藏
中文预训练模型下载原版:https://huggingface.co/modelsGoogle原版bert:https://github.com/google-research/bert中文XLNET预训练模型:https://github.com/ymcui/Chinese-XLNet (只有TensorFlow需转化) or https://huggingface.co/hfl/chinese-xlnet-base/tree/main (pytorch版本需下载)可参照:https://www原创 2022-03-09 18:28:14 · 7996 阅读 · 1 评论 -
实现基于LSTM的情感分析
用一个简单的例子,说明NLP中情感分析的经典模型(Bi-LSTM + Attention),具体可见GitHub:https://github.com/SoulDGXu/Sentiment-Analysis-Chinese-pytorch原创 2022-03-03 13:51:34 · 10817 阅读 · 3 评论 -
基于seq2seq文本生成的采样策略、解码策略
文章目录基于seq2seq文本生成的解码、采样策略?1. 贪婪采样1.1 Greedy Search1.2 Beam Search2. 随机采样2.1 Temperature Sampling:2.2 Top-k Sampling:2.3 Top-p Sampling (Nucleus Sampling ):3. Reference基于seq2seq文本生成的解码、采样策略?基于Seq2Seq模型的文本生成有各种不同的decoding strategy。文本生成中的decoding strategy主要原创 2022-02-18 18:42:40 · 2139 阅读 · 0 评论 -
AMiner发布2022 AI 2000人工智能最具影响力学者名单
文章目录AMiner发布2022年人工智能全球最具影响力学者榜单关于AI 20002022年AI 2000榜单分析1.榜首分析2.最具影响力Top10分析2.1 最具影响力机构Top102.2 最具影响力国家Top102.3 最具影响力论文Top103.AI 2000学者多领域分布4.AI 2000学者国家分布5.AI 2000学者机构分布6.AI 2000华人学者分布7.AI 2000学者性别分布8.AI 2000学术网络9.总结AMiner发布2022年人工智能全球最具影响力学者榜单2022年1月2原创 2022-02-18 15:42:16 · 5262 阅读 · 0 评论 -
2021「AI中国」评选
2021「AI中国」评选2022年1月各个机构频频发布”2021年度研究报告“,真的是乱花渐欲迷人眼哪。今天来看看,机器之心的2021年度评选,那些在产业中挖掘AI应用价值的公司都在忙活什么呢。最强技术实力公司TOP 10谈到技术实力最强,国内几个互联网大厂榜上有名,也不觉得惊讶。阿里巴巴的关联公司及业务非常广泛,其人工智能的应用涉及方方面面,如智能软件、智能交通、智能医疗、智能物联网、智能物流、智能制造、智能企服、智能文娱、智能家居、智能出行、智能零售等。稍微陌生的一个应该是博世,它不是我们熟知原创 2022-02-18 15:28:39 · 14496 阅读 · 0 评论 -
Macbook M1避坑指南:安装Apple-TensorFlow(arm64)
文章目录1. 你可能遇到的问题2. 解决方案Step 1:安装Xcode Command Line Tools,Apple Developer下载安装即可。Step 2:安装arm版本miniforge。Step 3: 从[Mac-optimized TensorFlow2.4 and TensorFlow Addons](https://github.com/apple/tensorflow_macos)下载ARM64版本的TensorFlow2.4,具体的安装要求是macOS 11.0+, Pytho原创 2021-09-29 19:03:00 · 7353 阅读 · 15 评论 -
Macbook m1 with conda-forge安装package报错和解决
文章目录Macbook m1 with conda-forge安装package报错和解决1.以TensorFlow为例1.1 报错1:zsh: illegal hardware instruction1.1.1 解决方案1:下载 安装miniforge3然后创建虚拟环境Step 1:**下载ARM版Miniforge3:**Step2:**创建虚拟环境**1.2 报错2:NotImplementedError: Cannot convert a symbolic Tensor1.2.1 解决方案2.以ge原创 2021-09-28 18:52:39 · 5473 阅读 · 2 评论 -
jieba分词词性标注含义
结巴分词的词性标注默认模式是使用jieba.posseg.cut(),包括24个词性标签(小写字母)。paddle模式多了4个专名类别标签(大写字母)。jieba.posseg.POSTokenizer(tokenizer=None) 新建自定义分词器,tokenizer 参数可指定内部使用的 jieba.Tokenizer 分词器。jieba.posseg.dt 为默认词性标注分词器。标注句子分词后每个词的词性,采用和 ictclas 兼容的标记法。除了jieba默认分词模式,提供paddl原创 2021-08-28 13:47:14 · 5871 阅读 · 1 评论 -
Apple MacBook M1 Anaconda安装 Tensorflow
MacBook Air M1芯片安装Tensorflow踩坑踩坑1:在mac m1上安装tensorflow报错“zsh: illegal hardware instruction”环境: anaconda + python3.8直接用 pip install tensorflow 安装,能够顺利安装tensorflow2.5.0,但是import tensorflow 的时候会报如上错误.对此,查找了网上许多资料:大概流程就是架构问题,但是问题博客基本是2020-12~2021-3月的解决方法了原创 2021-08-10 17:31:52 · 18373 阅读 · 36 评论 -
检索模型-粗排HNSW
文章目录HNSW1. 近邻图(Proximity Graph)2. NSW算法原理2.1 NSW构图算法2.2 NSW查找算法NSW 中的贪婪搜索算法NSW中的K-NNSearch算法2.3 NSW插入算法3. 跳表结构4. HNSW 算法原理4.1 插入算法4.2 搜索当前层的最近邻4.3 截取集合中最近邻的M个结果4.4 启发式寻找最近邻4.5 KNN查询5. 算法复杂度分析6. HNSW应用工具HNSW解决的问题:做高效率相似性查找。推荐系统中,如何找到与用户query最相近的几个item,然后推原创 2021-03-19 10:21:46 · 2054 阅读 · 0 评论 -
各种优化器SGD,AdaGrad,Adam,LBFGS都做了什么?
文章目录各种优化器SGD,AdaGrad,Adam,LBFGS都做了什么?1. SGD:2. SGD+Momentum:3. NAG(Nesterov Accelerated Gradient ):4. AdaGrad(Adaptive Gradient Algorithm):5. AdaDelta:6. RMSProp:7. Adam:8. [AdaMax](https://arxiv.org/pdf/1412.6980.pdf):9. AdamW:10. SGDW:11. [AMSGrad](https原创 2021-01-15 15:39:44 · 12304 阅读 · 0 评论 -
Beam Search 及5种优化方法
文章目录Beam Search 及优化1. Review Beam Search2. Beam Search Refinement2.1 Hypothesis filtering2.2 Normalization2.2.1 Length Normalization2.2.2 Coverage Normalization2.2.3 End of sentence Normalization2.3 Decoding with auxiliary language model2.4 Decoding with原创 2021-01-11 10:16:23 · 5216 阅读 · 0 评论 -
Paper:Generating Hierarchical Explanations on Text Classification via Feature Interaction Detection
论文:Generating Hierarchical Explanations on Text Classification via Feature Interaction Detectiongithub:https://github.com/UVa-NLP/HEDGE1. IntroductionGenerating explanations for neural networks, help understand the decision-making of black-box modelsE原创 2021-01-09 10:07:28 · 312 阅读 · 0 评论 -
GPU计算
文章目录GPU计算1. GPU和CPU的区别2. GPU的主要参数解读3. 如何在pytorch中使用GPU4. 市面上主流GPU的选择GPU计算1. GPU和CPU的区别设计目标不同,CPU基于低延时,GPU基于高吞吐。CPU:处理各种不同的数据类型,同时又要逻辑判断又会引入大量的分支跳转和中断的处理GPU:处理类型高度统一的、相互无依赖的大规模数据,不需要被打断的纯净的计算环境什么类型的程序适合在GPU上运行?计算密集型易于并行的程序2. GPU的主要参数解读显存大小:当模原创 2021-01-08 19:08:37 · 2306 阅读 · 0 评论 -
RNN的梯度消失和梯度爆炸
文章目录RNN 梯度消失&梯度爆炸1. 深层网络角度解释梯度消失和梯度爆炸2. 激活函数角度解释梯度消失和梯度爆炸3. RNN中的梯度消失和CNN的梯度消失有区别4. 梯度消失、爆炸的解决方案4.1 梯度爆炸的解决方案4.2 梯度消失的解决方案4.2.1 选择relu、leakrelu、elu等激活函数4.2.2 使用Batchnorm(batch normalization,简称BN):4.2.3 残差结构:4.2.4 LSTM:5. 参考RNN 梯度消失&梯度爆炸参考:http原创 2021-01-08 18:55:07 · 10818 阅读 · 4 评论 -
卷积神经网络的可视化
2014 ECCV 纽约大学 Matthew D. Zeiler, Rob Fergus论文:Visualizing and Understanding Convolutional Networks(卷积神经网络的可视化理解)论文下载:https://arxiv.org/pdf/1311.2901.pdf论文翻译:https://blog.csdn.net/kklots/article/details/17136059博客:http://kvfrans.com/visualizing-featur原创 2021-01-08 18:30:58 · 273 阅读 · 0 评论 -
常用的卷积神经网络-2-经典CNN模型
文章目录CNN发展1. AlexNet2. VGG3. GoogleNet4. Inception5. ResNet6. Xception7. ShuffleNet8. SENet9. CNN总结10. CNN在NLP的应用CNN发展1. AlexNet卷积核一定越大越好吗?-- 小卷积核分组卷积首先在在AlexNet中出现,还用到一些非常大的卷积核,比如11×11、5×5卷积核,先前的观念是:卷积核越大,receptive field(感受野)越大,获取到的图片信息越多,因此获得的特征越好。但是大原创 2021-01-08 18:15:30 · 2816 阅读 · 0 评论 -
常用的卷积神经网络-1-卷积和通道
文章目录CNN1. CNN基本结构2. 卷积和通道2.1 分组卷积(Group Convolution)2.2 Convolution VS Group Convolution2.3 Group Convolution的用途2.4 Depthwise Convolution && Pointwise Convolution && Depthwise Separable Convolution2.5 Group Convolution 和 Depthwise + Pointwi原创 2021-01-08 18:09:52 · 3938 阅读 · 0 评论 -
常用的卷积神经网络【完整版】
文章目录1. CNN1.1 基本结构1.2 CNN 网络1.2.0 卷积和通道1.2.0.1 分组卷积(Group Convolution)1.2.0.2 Convolution VS Group Convolution1.2.0.3 Group Convolution的用途1.2.0.4 Depthwise Convolution && Pointwise Convolution && Depthwise Separable Convolution1.2.0.5 Group原创 2021-01-08 17:56:23 · 5509 阅读 · 1 评论 -
初识NER及其应用NER-BILSTM-CNN
文章目录Named Entity Recognition1. NER1.1 NER定义1.2 数据格式1.2.1 BIO1.2.2 BIOES1.3 开源库1.4 相关数据集1.5 方法2. BILSTM2.1 BILSTM classify2.2 BILSTM seq encode3. NER应用:NER-BILSTM-CNN4. NER应用:BERT-NER5. 总结6. 参考Named Entity Recognition1. NER1.1 NER定义命名实体识别(NER):也称为实体识别、原创 2021-01-08 17:32:07 · 2230 阅读 · 0 评论 -
基于Seq2Seq的文本生成评价指标解析
文章目录1. seq2seq 框架2. seq2seq任务类型4. 文本生成任务的评价方法4.1 BLEU4.2 ROUGE4.2.1 ROUGE-N (将BLEU的精确率优化为召回率)4.2.2 ROUGE-L (将BLEU的n-gram优化为公共子序列)4.2.3 ROUGE-W (ROUGE-W 是 ROUGE-L 的改进版)4.2.4 ROUGE-S (Skip-Bigram Co-Occurrence Statistics)4.3 METEOR5. 参考1. seq2seq 框架序列到序列模型原创 2021-01-08 17:19:22 · 1632 阅读 · 0 评论 -
关于RNN teacher forcing若干问题
文章目录teacher forcing1. teacher forcing要解决什么问题?2. 什么是teacher forcing?3. teacher-forcing 有什么缺点?4. teacher-forcing缺点的解决方法4.1 beam search4.2 curriculum learning5. Further Reading6. Referenceteacher forcingRNN 存在两种训练模式(mode):free-running mode: 上一个state的输出作为下原创 2021-01-08 17:13:35 · 1270 阅读 · 0 评论 -
Pointer Network【文本生成】发展与应用
文章目录Pointer Network1. Pointer Network(Ptr-Nets)1.1 Why Pointer Network?1.2 Structure of Pointer Network1.3 How to process language generation by incorporating Pointer Network ?2. Ptr-Nets扩展——Pointer-Generator Networks2.1 Baseline seq2seq attention model2.原创 2021-01-08 16:40:15 · 1092 阅读 · 0 评论 -
NLP三大特征抽取器(CNN/RNN/TF)比较
目录NLP三大特征抽取器(CNN/RNN/TF)比较1. NLP任务1.1 NLP任务特点1.2 NLP任务类型2. RNN2.1 为什么RNN能够成为解决NLP问题的主流特征抽取器?2.2 RNN目前面临的两个严重问题3. CNN3.1 早期CNN模型结构3.2 目前主流CNN模型4. Transformer4.1 论文来源:Attention is all you need4.2 Tansformer的组成4.3 Transformer效果好的原因4.4 Transformer针对NLP任务特点的解决方原创 2020-09-17 11:48:39 · 2922 阅读 · 0 评论