云淡风轻__
码龄4年
  • 92,821
    被访问
  • 125
    原创
  • 39,306
    排名
  • 77
    粉丝
关注
提问 私信

个人简介:Take your time, step by step~

  • 毕业院校: 新疆大学
  • 加入CSDN时间: 2018-04-20
博客简介:

云淡风轻_的博客

查看详细资料
  • 3
    领奖
    总分 463 当月 14
个人成就
  • 获得81次点赞
  • 内容获得45次评论
  • 获得233次收藏
创作历程
  • 10篇
    2022年
  • 40篇
    2021年
  • 75篇
    2020年
成就勋章
TA的专栏
  • 讽刺检测
  • ヾ(◍°∇°◍)ノ゙
  • 李宏毅
    14篇
  • NLP
    4篇
  • PaddleNLP
    4篇
  • 机器学习
    4篇
兴趣领域 设置
  • 人工智能
    深度学习自然语言处理图像处理
  • 最近
  • 文章
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

AI快车道PaddleNLP系列直播课6|语义检索系统快速搭建落地

语义检索系统:不同于基于字面匹配检索,在语义层面的检索泛化效果更好。语义检索系统方案的一些问题:用什么架构?各模块用什么模型?模型如何调优?有多少训练数据?训练数据的形式?语义检索效果如何自动化评估?等PaddleNLP语义检索系统给出的回答:架构:recall+ranking,模型:ERNIE-Gram,千万级无监督语料
原创
发布博客 2022.02.07 ·
1030 阅读 ·
0 点赞 ·
0 评论

AI快车道PaddleNLP系列直播课5|RocketQA:预训练时代的端到端问答

问答系统是信息检索系统的一种高级形式,旨在用准确简洁的自然语言回答用户自然语言提出的问题。 应用场景:搜索引擎、智能设备和智能客服。 分类:文本问答,知识库问答,表格问答和视频问答。 技术发展:规则方法、统计机器学习时代、深度学习方法。 预训练时代来了,端到端的系统可以做到全局优化,这种端到端问答系统一般是都是检索式问答,分为两阶段:先从语料库中检索候选段落,再阅读理解从候选段落中抽取候选答案。 本课围绕检索阶段
原创
发布博客 2022.02.05 ·
755 阅读 ·
0 点赞 ·
0 评论

XLNet:运行机制及和Bert的异同比较 - 知乎

XLNet在自回归语言模型中,通过PLM引入了双向语言模型。也就是在预训练阶段,采用attention掩码的机制,通过对句子中单词的排列组合,把一部分下文单词排到上文位置。 PLM预训练目标、更多更高质量的预训练数据,transformerXL的主要思想。这就是XLNet的三个主要改进点,这使XLNet相比bert在生成类任务上有明显优势,对于长文档输入的nlp任务也会更有优势。
原创
发布博客 2022.02.01 ·
1149 阅读 ·
0 点赞 ·
0 评论

NLP中的预训练技术是如何一步步的发展到BERT的

ELMo通过上下文动态调整wordembedding解决了多义词问题,但LSTM的特征抽取能力远不如transformer。且拼接方式双向融合的特征融合能力弱GPT用上了transformer特征抽取能力增强,但是采用单向语言模型,只通过上文进行预测BERT,transformer+双向语言模型+更大规模数据。BERT的效果:在11个各种类型的NLP任务中达到目前最好的效果,有些任务性能有极大提升引入先验的语言学知识,对数据有限的任务很重要,两阶段模式是很好的解决方法
原创
发布博客 2022.01.28 ·
43 阅读 ·
0 点赞 ·
0 评论

AI快车道PaddleNLP系列直播课4|文本生成任务的高性能加速

1 文本生成介绍本课是文本到文本的生成,机器翻译为例介绍整个的优化工作QPS:每秒处理句子的速度2 transformer性能瓶颈分析和优化self-attention的实现在pp中调用了20个左右的基本算子3 PaddleNLP机器翻译应用示例...
原创
发布博客 2022.01.28 ·
948 阅读 ·
0 点赞 ·
0 评论

对比学习视角重新审视推荐系统

对比学习可以说是自监督版本的度量学习,最大的的特点是自监督的,也就是自动构造正例的方法。SimCLR是对比学习的典型例子(对比损失函数InfoNCE来驱动达成对比学习的目标:正例拉近,负例推远) 容易发生模型坍塌的模型是不好的对比学习系统(SimCLR的防坍塌方法:随机负例,负例越多效果越好),好的对比学习系统应兼顾:alignment和uniformity,前者是希望相似正例在投影空间有相近的编码,后者是希望所有实例映射到投影空间之后分布尽可能均匀(希望实例对应的embedding可以保留更多的个性化信
原创
发布博客 2022.01.21 ·
743 阅读 ·
1 点赞 ·
0 评论

AI快车道PaddleNLP系列直播课3|自然语言处理中的小样本学习

一、小样本学习FSL背景介绍1.1 定义Few-shot learning旨在通过少量样本学习泛化能力强的模型 怎么算少?每个类下仅有4/8/16个训练样本1.2 小样本学习为什么重要标准的监督机器学习中所需要的标注数据量是非常大的,一般都要成千上万的规模。但是对人类来说,人类是通过少量的样本学习的。专业知识才能标注,成本也非常高;冷启动:在没有用户数据的时候如何推荐,试探性的推荐然后根据反馈来进一步推荐;新药发现:需要做实验,需要专业性,成本高。如果能做到小样本学习..
原创
发布博客 2022.01.21 ·
767 阅读 ·
0 点赞 ·
0 评论

AI快车道PaddleNLP系列直播课3|自然语言处理中的小样本学习

一、小样本学习FSL背景介绍1.1 定义Few-shot learning旨在通过少量样本学习泛化能力强的模型 怎么算少?每个类下仅有4/8/16个训练样本1.2 小样本学习为什么重要标准的监督机器学习中所需要的标注数据量是非常大的,一般都要成千上万的规模。但是对人类来说,人类是通过少量的样本学习的。专业知识才能标注,成本也非常高;冷启动:在没有用户数据的时候如何推荐,试探性的推荐然后根据反馈来进一步推荐;新药发现:需要做实验,需要专业性,成本高。如果能做到小样本学习..
原创
发布博客 2022.01.21 ·
767 阅读 ·
0 点赞 ·
0 评论

AI快车道PaddleNLP系列直播课2|开箱即用的产业级NLP开发库

一、PaddleNLP飞桨自然语言开发库:API可直接调用,丰富的模型库,产业级预置任务Taskflow二、PaddleNLP Taskflow2.1 目标和意义taskflow旨在提供开箱即用(一行代码就可以调用)的NLP预置任务能力,在中文场景上提供产业级的效果与极致的预测性能。2.2 taskflow架构如图,taskflow架构由三部分组成,设计了一个auto splitter的模块来支持任意长度文本输入不用担心文本截断;fast tokenizer模...
原创
发布博客 2022.01.18 ·
356 阅读 ·
0 点赞 ·
0 评论

AI快车道PaddleNLP系列直播课1|PaddleNLP助力万方优化搜索匹配

目录一、搜索场景中的技术难点二、技术选型与方案实施2.1 相关性的两个维度2.2 文本相关性2.3 词向量模型2.4bert不能用2.5选择了表示模型和交互模型2.6 sentencebert三、无监督数据使用&模型训练&优化&评估3.1 只有大规模无监督数据怎么办?3.2 PaddleNLP检索场景解决方案3.3 SimCSE四、模型优化4.1 模型性能优化4.2 模型层数12压缩到6层&动态图转静态图(训...
原创
发布博客 2022.01.17 ·
417 阅读 ·
1 点赞 ·
0 评论

AI快车道PaddleNLP系列直播课7|细粒度情感分析实战NLP|文本情感分类

情感分析旨在让机器具备像人一样的情感理解和表达能力。应用案例:国美评论智能分析平台SKEP:情感知识增强的预训练模型,传统预训练主要适用事实型文本,倾向于捕捉事实性语义,情感分析更关注文本中蕴含的情感和观点,有必要专门训练情感语义表示模型
原创
发布博客 2022.01.15 ·
714 阅读 ·
0 点赞 ·
0 评论

grammarly word安装失败

ctrl+shift按住在点击get start,为所有用户安装百分之70的安装问题只需要关掉安全卫士
原创
发布博客 2021.11.27 ·
624 阅读 ·
0 点赞 ·
0 评论

明明有tensorflow但是pycharm显示没有

因为pycharm使用了错误解释器在项目解释器中选择annaconda
原创
发布博客 2021.09.03 ·
1062 阅读 ·
2 点赞 ·
0 评论

从github上下载项目需要注意的地方

运行不起来下载的项目 文档介绍要详细:一步一步告诉你怎么做 配置不同可能是运行不了的原因 如果不了解技术最好不要运行,没法定位错误 有问题可以看看issue 部署方法: 下载项目 创建数据库,导入sql脚本 修改各种各样的配置文件 配置Tomcat或者直接运行 笨办法:如果实在运行不起来,可以直接自己重新创建一个空的新项目,然后把内容复制进去...
原创
发布博客 2021.09.03 ·
161 阅读 ·
1 点赞 ·
0 评论

git 码云 pycharm配置拉取项目

git官网下载太慢https://npm.taobao.org/mirrors/git-for-windows/git安装步骤https://blog.csdn.net/sanxd/article/details/82624127pycharm导入码云代码使用码云的用户名登录之后成功拉取项目!
原创
发布博客 2021.09.03 ·
198 阅读 ·
0 点赞 ·
0 评论

文字风格迁移

文章目录文字风格转换cycle GAN做法文字与语音和图像有所不同,不能合并做梯度下降和梯度上升了(不能微分)无法微分问题的解决方法:ScratchGAN:把各式各样用RL训练生成器的tips都试了一遍更多的转换举例:文字的starGAN:style transformer语音风格转换:男声变女声文字风格转换cycle GAN做法通常正负面的句子不成对出现,所以使用无监督学习的方法要做这个任务:Cycle GAN训练一个discriminator识别器看很多正面的句子,学到识别正面的句子
原创
发布博客 2021.07.30 ·
776 阅读 ·
2 点赞 ·
1 评论

Bag of Tricks for Efficient Text Classification(FastText)

文章目录摘要介绍FastText核心思想模型结构Hierarchical softmaxN-gram features实验任务一 sentiment analysis任务二 tag prediction总结 fasttext词向量优势摘要本文提出了一种简单有效的文本分类和表示学习方法。实验表明fasttext在准确性方面与深度学习分类器保持一致,并且训练和评估的速度大大提高。可以在不到10分钟的时间内使用标准的多核CPU对超过10亿个单词进行快速文本训练,并在不到一分钟的时间内对312K类中的50万个
原创
发布博客 2021.07.30 ·
59 阅读 ·
0 点赞 ·
0 评论

【二】BERT and its family

过去都是一个任务一个模型,现在逐渐迈向先让机器了解人类语言然后再做各式各样的任务 常见做法是:1、pre-train:先用大量无标记数据,训练一个能读懂人类语言的模型2、fine-tune:使用少量有标记资料去微调模型,去解各种NLP任务一、可以读人类语言的预训练模型长什么样,可以做什么事预训练模型:希望把输入的每一个token表示成一个embedding vector,这个vector包含token的语义,含义相近的token会有相近的em...
原创
发布博客 2021.07.26 ·
95 阅读 ·
1 点赞 ·
2 评论

【一】NLP简介

一、根据输入输出的不同组合,NLP任务类别如下横向:输入 纵向:输出二、词性标注预处理part-of-speech(POS)taggingPOS tagging的模型,给句子中的每一个词标注词性 然后把词性的信息与文字绑定之后,放在下游任务中使用,帮助分辨一词多义的问题假如下游任务的模型有做POS tagging的能力,也可以不提前做预处理三、中文分词预处理word segmentation中文需要词汇分隔,英文是不需要的 模型会做二元分类,决定每个字是否是...
原创
发布博客 2021.07.25 ·
346 阅读 ·
2 点赞 ·
0 评论

【七-2】终身学习 Life Long Learning - catasrophic forgetting

娱乐圈太乱了,吃瓜都有点疲劳,其实我的态度是谴责的,但我不觉得非常愤怒,什么样的人都有,垃圾回到垃圾桶去就好老师突然说要学终身学习,想着其实把李宏毅老师的课完整学下来,其实就具备了看懂论文的能力新裤子乐队的歌听得我还可以再学一个小时(最多了),自律真的是一件反人类的事情。因为最近在认真的做笔记,csdn的编辑器一言难尽... ,不要偷懒把序号标好,逻辑和层次都清清楚楚了 nice ~我其实没有思考过为什么人工智能还没有变成天网,学了...
原创
发布博客 2021.07.19 ·
178 阅读 ·
0 点赞 ·
0 评论
加载更多