NLP分享汇
码龄11年
关注
提问 私信
  • 博客:77,646
    视频:179
    77,825
    总访问量
  • 33
    原创
  • 139,793
    排名
  • 122
    粉丝
  • 0
    铁粉
  • 学习成就

个人简介:Every day is my life ! I hug my life and love it .

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:美国
  • 加入CSDN时间: 2014-04-06
博客简介:

北风吹过的秋

博客描述:
科研小僧
查看详细资料
  • 原力等级
    成就
    当前等级
    2
    当前总分
    159
    当月
    2
个人成就
  • 获得149次点赞
  • 内容获得28次评论
  • 获得344次收藏
创作历程
  • 4篇
    2024年
  • 3篇
    2022年
  • 25篇
    2021年
  • 2篇
    2018年
成就勋章
TA的专栏
  • 小样本学习
    1篇
  • 中文NER
    1篇
  • 对话系统
    3篇
  • 卷积神经网络
    1篇
  • 关系抽取
    2篇
  • 事件抽取
    2篇
  • 机器阅读理解
    1篇
  • 金融量化策略
    1篇
  • 强化学习
    3篇
  • 文本分类
    1篇
  • 多文档摘要
    1篇
  • 知识图谱
    3篇
  • 知识融合
    3篇
  • 马尔可夫决策过程
  • 马里奥找宝藏
  • python
    1篇
  • Linux
    1篇
兴趣领域 设置
  • 人工智能
    机器学习深度学习神经网络自然语言处理tensorflowpytorchnlp数据分析
创作活动更多

仓颉编程语言体验有奖征文

仓颉编程语言官网已上线,提供版本下载、在线运行、文档体验等功能。为鼓励更多开发者探索仓颉编程语言,现诚邀各位开发者通过官网在线体验/下载使用,参与仓颉体验有奖征文活动。

368人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Google力作 | Infini-attention无限长序列处理Transformer

表2中的数据表明,Infini-Transformer在长上下文语言建模任务上取得了优于Transformer-XL和Memorizing Transformers的结果,同时保持了更低的内存占用。表2中列出了几种不同的模型配置,并展示了它们在不同长度序列上的表现。介绍了Infini-attention,这是一种新的注意力技术,它在传统的注意力机制中加入了压缩记忆(compressive memory),并在单个Transformer块中集成了masked局部注意力和long-term线性注意力机制。
原创
发布博客 2024.06.02 ·
1058 阅读 ·
26 点赞 ·
0 评论 ·
28 收藏

SELF-RAG: Learning to Retrieve, Generate, and Critique Through Self-reflection

更多文章,请关注微信公众号:NLP分享汇下面介绍的这篇论文是最近被ICLR 2024 accepted oral,作者来自University of Washington & Allen Institute for AI & IBM Research AI。大语言模型(LLMs)尽管功能强大,但它们生成的响应常常包含事实性错误,这是因为它们只依赖于模型内部的参数知识。现有方法的局限性:检索增强生成(RAG)是一种通过检索相关知识来增强语言模型输入的方法,它减少了知识密集型任务中的事实错误。
原创
发布博客 2024.06.02 ·
567 阅读 ·
3 点赞 ·
0 评论 ·
10 收藏

xLSTM: Extended Long Short-Term Memory

图8在展示了不同语言模型在不同模型大小下的验证集困惑度(Perplexity)与参数数量的关系,这是对模型缩放行为(Scaling Laws)的分析。图中比较了几种xLSTM变体,包括只有sLSTM的架构(xLSTM[0:1]),只有mLSTM的架构(xLSTM[1:0]),以及两者结合的架构(xLSTM[1:1])。表3展示了不同语言模型在SlimPajama数据集上的性能比较,特别是在不同模型大小下的验证集困惑度(Perplexity)和下游任务(Downstream Tasks)的性能。
原创
发布博客 2024.06.02 ·
1708 阅读 ·
29 点赞 ·
0 评论 ·
20 收藏

LLMs Can’t Plan, But Can Help Planning in LLM-Modulo Frameworks

这里,作者使用Kahneman(2011)的理论《Thinking fast and slow》,将LLMs比作一个巨大的伪系统1,意味着它们能够快速生成文本和响应,但并不涉及深层次的推理或规划。总之,这篇论文主张大型语言模型(LLMs)自身无法执行复杂的规划任务,但可以在LLM-Modulo框架内,与外部基于模型的验证器相结合,发挥辅助规划的作用,通过这种神经符号集成方法,提高规划和推理任务的灵活性和表达力。但是,由于LLM无法验证自己的解决方案,这种自我改进的方法实际上是不可行的。
原创
发布博客 2024.06.02 ·
847 阅读 ·
26 点赞 ·
0 评论 ·
10 收藏

工程化实践:如何基于自定义数据进行P-tuning实验?如何部署预测?

小样本学习工程化应用:P-tuning
原创
发布博客 2022.05.05 ·
2070 阅读 ·
2 点赞 ·
6 评论 ·
4 收藏

fatal error: ‘Segmentation fault‘ is detected by the operating system

原创
发布博客 2022.03.13 ·
4644 阅读 ·
2 点赞 ·
1 评论 ·
4 收藏

ImportError: /usr/lib/x86_64-linux-gnu/libstdc++.so.6: VERSION ‘GLIBCXX_3.4.22‘ not found

首先先把我遇到的问题贴出来这个是默认路径下的libstdc++.so.6缺少GLIBCXX_3.4.22,你有可能缺少其它版本的比如3.4.23,解决方法一样,如下所示:(1)使用指令先看下目前都有哪些版本的/usr/lib/x86_64-linux-gnu/libstdc++.so.6 | grep GLIBCXX我这里只到3.21,所以确定是确实这个文件(2)使用sudo find / -name "libstdc++.so.6*"来查看当前系统中其它的同类型文件,找到一个版.
原创
发布博客 2022.03.13 ·
2688 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

中文NER—项目中的SOTA应用

中文NER 的 SOTA应用,ACL2020 FLAT 和 ACL2021 LEBERT 。
原创
发布博客 2021.11.17 ·
3577 阅读 ·
1 点赞 ·
8 评论 ·
11 收藏

社交媒体文本立场分析及情感对话生成_徐睿峰教授(哈工大深圳)

发布视频 2021.06.16

多风格的语音驱动说话人生成_吴昊哲博士(清华大学)

发布视频 2021.06.16

情感计算在推荐系统中的应用_李晨亮研究员(武汉大学)

发布视频 2021.06.16

对话系统中的情绪智能_黄民烈副教授(清华大学)

发布视频 2021.06.16

多模态情感表达_宋睿华副教授(中国人民大学)

发布视频 2021.06.16

2021多模态情感计算:致辞&情感计算专委会介绍

发布视频 2021.06.16

Recent Advances in Deep Learning-based Dialogue Systems

本文将以2021年南洋理工大学发表的论文《Recent Advances in Deep Learning-based Dialogue Systems》为基础,介绍「深度学习对话系统」综述系列,共分七篇,本文是开篇。论文制作了一个图表,以帮助读者熟悉整体结构(如图1),本系列将依此详细介绍。 图1 全文结构各部分介绍请点击链接查看,内容有点多哦,当作参考吧,希望对你有帮助。【一】简要介绍对话系统和...
原创
发布博客 2021.06.11 ·
1007 阅读 ·
0 点赞 ·
0 评论 ·
17 收藏

Pointer Net and CopyNet

关注微信公众号:NLP分享汇。【喜欢的扫波关注,每天都在更新自己之前的积累】文章链接:https://mp.weixin.qq.com/s/BgRe6Y7Qvr9RylxlE_4eJw01 - Pointer Net在对话系统和问答等一些NLP任务中,代理(agents)有时需要直接引用用户消息。Oriol等人[1] 2015年提出的Pointer Net网络 (图1)解决了直接从输入句子复制token的问题。 Sequence-to-sequence【图1a】 RNN(蓝色)对输
原创
发布博客 2021.05.27 ·
587 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

《 Recent Advances in Deep Learning-based Dialogue Systems 》:Neural Models in Dialogue Systems

关注微信公众号:NLP分享汇。【喜欢的扫波关注,每天都在更新自己之前的积累】文章链接:https://mp.weixin.qq.com/s/vsEH5wj9Y5dShnH42hCX_Q前言本文将以2021年南洋理工大学发表的论文《Recent Advances in Deep Learning-based Dialogue Systems》为基础,介绍「深度学习对话系统」综述系列,共分七篇,本文是第二篇。本文较长,建议读者直接阅读感兴趣的部分。开篇链接:2021深度学习对话系统大综述 [
原创
发布博客 2021.05.27 ·
2242 阅读 ·
1 点赞 ·
0 评论 ·
10 收藏

GRU

关注微信公众号:NLP分享汇。【喜欢的扫波关注,每天都在更新自己之前的积累】文章链接:https://mp.weixin.qq.com/s/lr65Pun1_jP6rUY5-66OSgGRU是LSTM网络的一种效果很好的变体,它较LSTM网络的结构更加简单,而且效果也很好,因此也是当前非常流形的一种网络。GRU既然是LSTM的变体,因此也是可以解决RNN网络中的长依赖问题。在LSTM中引入了三个门函数:输入门、遗忘门和输出门来控制输入值、记忆值和输出值。而在GRU模型中只有两个门:分别.
原创
发布博客 2021.05.26 ·
151 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

长短期记忆网络 Long Short-Term Memory

关注微信公众号:NLP分享汇。【喜欢的扫波关注,每天都在更新自己之前的积累】文章链接:https://mp.weixin.qq.com/s/XdV-1aIRFzAU8HXTH7M3Lw前言之前我们对RNN模型做了总结。由于RNN也有梯度消失的问题,因此很难处理长序列的数据,大牛们对RNN做了改进,得到了RNN的特例LSTM,它可以避免常规RNN的梯度消失,因此在工业界得到了广泛的应用。RNN原理介绍:追根溯源:循环神经网络《 Long short-term memory 》 ..
原创
发布博客 2021.05.26 ·
993 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

追根溯源:循环神经网络(Recurrent Neural Networks)

关注微信公众号:NLP分享汇。【喜欢的扫波关注,每天都在更新自己之前的积累】文章链接:https://mp.weixin.qq.com/s/A0irVL4-uYVCbrSrtFEZxQ一、背景NLP任务(包括与对话相关的任务)尝试处理和分析顺序的语言数据点,即使标准神经网络以及CNN是强大的学习模型,它们也具有两个主要限制: 一种是它们假定数据点彼此独立。虽然可以独立地产生数据点是合理的,但是在处理相互关联的数据点(例如,文本,音频,视频)时,可能会丢失基本信息。 另外,它们
原创
发布博客 2021.05.26 ·
547 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多