对于bert_extract_summarization的认识

最新推荐文章于 2024-05-29 11:12:04 发布

weixin_41710583

最新推荐文章于 2024-05-29 11:12:04 发布

阅读量296

点赞数

文章标签：深度学习自然语言处理 tensorflow pytorch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41710583/article/details/117600083

版权

在查看了https://github.com/chriskhanhtran/bert-extractive-summarization.git关于摘要提取的内容之后，说说对于bert_extract_summarization其中的理解。

主要内容是根据一篇长文本，对其中的关键内容进行抽取，得到了文本摘要的内容。因为作者只提供了训练好的模型，所以只是使用作者的模型带入去理解。

01 预处理：将一篇文本中的多个句子用特殊符号（[SEP]、[CLS]）合并。将文本转换为id。并标记mask值。因为文本中有多个句子用特殊符号连接，因为CLS在bert模型中往往被认为是代表整句话的意思。所以extract_summarization模型的主要任务就要对cls进行预测。所以将cls标注的位置都保存记录下来。并对cls标注的数据，进行mask的填充。记录cls标注数据的shape(batch,cls_sel_len)。input的shape(batch,seq_len)

02 模型实现：将预处理后的句子，送入bert模型。得到最后一层的输出输出output (batch,seq_len,d_model)。然后根据之前处理的cls,根据矩阵相乘，找到输出中都是cls标记位置的向量矩阵cls_out_put (batch,cls_sel_len,d_model)。

03 将得到的cls标记位置向量矩阵，做为输入。选用transformer的encoder阶段，计算位置向量、多头注意力、和ffn以及残差层和正则化层。得到输出output (batch,cls_sel_len,d_model)。

04 将得到的输出经过非线性从得到最后维度为1， output (batch,cls_sel_len,1)。然后降维，经过softmax得到，最后各自cls位置的概率。然后根据概率选出，对应排名前几位置对应的内容，若为输出的摘要内容。

weixin_41710583

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
对于bert_extract_summarization的认识

在查看了https://github.com/chriskhanhtran/bert-extractive-summarization.git关于摘要
复制链接

扫一扫

weixin_41710583 CSDN认证博客专家 CSDN认证企业博客

码龄6年

45: 原创

39万+: 周排名

75万+: 总排名

9万+: 访问

: 等级

1203: 积分

41: 粉丝

56: 获赞

38: 评论

615: 收藏

私信

关注

热门文章

最新评论

通过５折交叉验证，实现逻辑回归，决策树，SVM,随机森林，GBDT,Xgboost,lightGBM的评分
sanshui_yan: 请问一直出现：KeyError: 'status'这个怎么办呀
通过５折交叉验证，实现逻辑回归，决策树，SVM,随机森林，GBDT,Xgboost,lightGBM的评分
Yeeeissie: 求问这个数据集可以嘛
利用随机森林、GBDT、xgboost、LightGBM计算准确率和auc
Fat Black Cat: 谢谢
用pytorch 实现逻辑回归
老帅的家伙: acc is 0.5000 ********** epoch 9420 loss is 50.0000 acc is 0.5000 ********** epoch 9440 loss is 50.0000 acc is 0.5000 ********** epoch 9460 loss is 50.0000 acc is 0.5000 ********** epoch 9480 loss is 50.0000 acc is 0.5000 ********** epoch 9500 loss is 50.0000 acc is 0.5000 ********** epoch 9520 loss is 50.0000 acc is 0.5000 ********** epoch 9540 loss is 50.0000 acc is 0.5000 ********** epoch 9560 loss is 50.0000 acc is 0.5000 ********** epoch 9580 loss is 50.0000 acc is 0.5000 ********** epoch 9600 loss is 50.0000 acc is 0.5000 ********** epoch 9620 loss is 50.0000 acc is 0.5000 ********** epoch 9640 测自己的数为什么loss一直
通过５折交叉验证，实现逻辑回归，决策树，SVM,随机森林，GBDT,Xgboost,lightGBM的评分
m0_50778672: 你好，请问数据集在哪能看？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。