自然语言处理NLP
文章平均质量分 81
自然语言处理 NLP
friedrichor
研一学生
研究方向:Large Multimodal Models, Multimodal Dialogue.
Github: https://github.com/friedrichor
知乎: https://www.zhihu.com/people/friedrichor
知乎持续更新,欢迎关注
展开
-
[ACL 2024 Main] StickerConv: 从零开始的多模态共情回复生成
ACL 2024 Main,基于 sticker 的多模态共情对话数据集、大模型和评价体系。原创 2024-05-23 16:10:15 · 1403 阅读 · 0 评论 -
使用 T5 模型来做文本分类任务的一些总结
使用 T5 (Text-to-Text Transfer Transformer) 来做文本分类任务的一些总结原创 2023-04-05 17:01:24 · 4453 阅读 · 4 评论 -
【论文&模型讲解】文本分类 Towards Unified Prompt Tuning for Few-shot Text Classification
UPT (Unified Prompt Tuning) few-shot 文本分类Towards Unified Prompt Tuning for Few-shot Text Classification原创 2022-12-25 15:51:14 · 1376 阅读 · 4 评论 -
CCL2022自然语言处理国际前沿动态综述——开放域对话生成前沿综述
CCL2022自然语言处理国际前沿动态综述 之 开放域对话生成前沿综述,由哈尔滨工业大学计算学部、社会计算与信息检索研究中心的张伟男老师汇报。原创 2022-11-01 20:35:23 · 2018 阅读 · 4 评论 -
开放型对话系统研究综述
对当前 对话系统 的发展进行总结 并 重点对开放型对话技术进行梳理。原创 2022-10-03 12:15:23 · 1283 阅读 · 0 评论 -
语言模型 实现 下一单词预测(next-word prediction)
NNLM、RNNLM、Attention语言模型 language model下一单词预测 next-word prediction原创 2022-07-30 21:30:43 · 3741 阅读 · 0 评论 -
Elasticsearch环境搭建详细教程
文章目录1. 下载Elasticsearch2. 配置 Java环境3. 运行 elasticsearch.bat4. 安装 node.js5. 下载并配置 elasticsearch-head6. 安装 grunt环境7. 访问 http://localhost:9100/8. 之后使用 Elasticsearch9. IK分词器(中文搜索)1. 下载Elasticsearch前往官网下载:https://www.elastic.co/cn/downloads/elasticsearch#ga-rel原创 2022-04-24 11:09:36 · 4915 阅读 · 0 评论 -
安装node.js(‘npm‘ 不是内部或外部命令,也不是可运行的程序)
一、下载node.js首先到官网下载相应的包:https://nodejs.org/en/download/以我自己的电脑为例,点击如下红框进行下载:然后解压,如下所示:cmd进入上面这个文件夹,然后输入npm install -g cnpm --registry=https://registry.npm.taobao.org,效果大致如下所示。输入grunt -version可以查看版本号二、配置环境环境变量中双击打开 系统变量的 Path点击新建,把上面解压后的那个文件夹路径输原创 2022-04-23 21:07:00 · 5702 阅读 · 0 评论 -
【论文&模型讲解】Learning to Select Knowledge for Response Generation in Dialog Systems(PostKS模型)
Learning to Select Knowledge for Response Generation in Dialog Systems PostKS(Posterior Knowledge Selection)模型后验知识模型原创 2022-03-28 00:12:33 · 1959 阅读 · 0 评论 -
通俗易懂地理解BERT并微调
目录模型架构预训练步骤MLM(Mask Language Model)NSP下游任务微调BERT如何提升BERT下游任务表现模型架构BERT的基础transformer结构(encoder部分):输入部分:对于transformer来说,输入部分会进行两个操作,包括Input Embedding和Positional Encoding两部分。Input Embedding就是将输入转为词向量,可以是随机初始化,也可以是使用word2vec。Positional Encoding就是位置编码,用原创 2022-03-27 11:48:26 · 4269 阅读 · 1 评论 -
一文带你通俗易懂地了解word2vec原理
词向量、Word embedding、语言模型训练(Language Model Training)、CBOW(Continuous Bag of Words)、Skipgram、Negative Sampling(负采样)、Skipgram with Negative Sampling (SGNS)、Word2vec训练过程原创 2022-03-26 22:29:59 · 5633 阅读 · 2 评论 -
停用词相关
停用词(Stop Words)的价值、收集与使用转载 2022-01-25 00:18:29 · 145 阅读 · 0 评论 -
NLP任务中, 被pad和unk的向量应该赋值为zero还是random呢?
pad一般选用一种“无损”的方法,比如CNN里用0向量(在relu激活+没有b的前提下,和变长序列是一样的),而RNN时pad随便补反正会(手动)mask掉。不过一般keras之类的自动mask貌似都是让你补0?一般会用随机初始化,但也有一些技巧,比如对低频词对应的可以对全部低频词做采样后取平均来初始化。(或者表示0频词的初始化为1频词的采样平均)。应该也会有人用character embedding之类的方法来初始化UNK吧~虽然不懂推荐系统,但感觉没见过的商品类别可以对类别相似的商品采样取平均的方式转载 2020-10-28 21:36:09 · 1374 阅读 · 0 评论 -
Textclassification
Textclassification中文短文本分类包含TextCNN, TextDCNN, TextDPCNN, TextRCNN, TextRNN, TextRNN+Attention, Transformer, FastText等模型原创 2020-11-11 19:50:35 · 283 阅读 · 0 评论 -
nltk.download(‘punkt‘)报错问题解决方案
nltk.download(‘punkt’)报错问题结果方案问题描述import nltk nltk.download('punkt')运行这个代码在我这里会出现如下报错,原因不详[nltk_data] Error loading punkt: <urlopen error [WinError 10054][nltk_data] 远程主机强迫关闭了一个现有的连接。>解决方案直接到官网下载文件:网址点击download,在 C:\Users\xxx\AppDat原创 2022-01-12 01:36:33 · 12963 阅读 · 6 评论 -
PostKS(Posterior-Knowledge-Selection)模型代码运行经验
PostKS(Posterior-Knowledge-Selection)模型原创 2022-01-11 23:28:09 · 600 阅读 · 0 评论