NLP实战一：Pytorch实现TextCNN文本分类

最新推荐文章于 2024-08-15 10:33:09 发布

AI大模型学习不迷路

最新推荐文章于 2024-08-15 10:33:09 发布

阅读量88

点赞数 2

文章标签：自然语言处理 pytorch 分类人工智能大模型 NLP 大语言模型

本文链接：https://blog.csdn.net/Z4400840/article/details/141215811

版权

我从THUCNews中抽取了20万条新闻标题，已上传至github，文本长度在20到30之间。一共10个类别，每类2万条。

类别：财经、房产、股票、教育、科技、社会、时政、体育、游戏、娱乐。

数据集划分：

数据集、词表及对应的预训练词向量，已经打包好，详见THUCNews文件夹。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

效果

完整项目和数据集代码获取地址:

关注微信公众号 datayx 然后回复 NLP实战即可获取。

Python环境及安装相应依赖包

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉[CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）]()👈

分析：
卷积操作相当于提取了句中的2-gram，3-gram，4-gram信息，多个卷积是为了提取多种特征，最大池化将提取到最重要的信息保留。

原理图如下：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

终端运行下面命令，进行训练和测试：

训练过程如下：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

训练及测试结果如下：使用CPU版本pytorch，耗时15分25秒，准确率90.99%

👉[CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）]()👈

关注