【自然语言处理】对评论进行处理的推荐系统的论文总结

最新推荐文章于 2023-03-02 22:13:06 发布

ciecus_csdn

最新推荐文章于 2023-03-02 22:13:06 发布

阅读量1.7k

点赞数 2

分类专栏：推荐系统自然语言处理文章标签：自然语言处理推荐系统

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ciecus_csdn/article/details/87863763

版权

本文介绍了自然语言处理在推荐系统中的应用，涉及腾讯语料库、词袋模型（BOW）及其升级版N-gram模型、TF-IDF权重计算方法和隐语义模型LSA。同时，文章还分享了阿里自然语言处理部总监对NLP技术在电商领域的应用，包括情感分析、标题分析和舆情文本分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

【自然语言处理】对评论进行处理的推荐系统的论文总结

NLP语料库介绍的以及连接
- 腾讯语料库
- github上40个nlp中文语料库
推荐系统中常见的文本处理方法
阿里自然语言处理部总监分享：NLP技术的应用及思考
- 标题分析
- 舆情文本分析

NLP语料库介绍的以及连接

腾讯语料库

数据链接：
https://ai.tencent.com/ailab/nlp/embedding.html
数据简介：
腾讯AI实验室宣布，正式开源一个大规模、高质量的中文词向量数据集。

该数据包含800多万中文词汇，相比现有的公开数据集，在覆盖率、新鲜度及准确性上大幅提高。

在对话回复质量预测、医疗实体识别等自然语言处理方向的业务应用方面，腾讯内部效果提升显著。
数据特点：
总体来讲，腾讯AI实验室此次公开的中文词向量数据集包含800多万中文词汇，其中每个词对应一个200维的向量。

具体方面，腾讯自称，该数据集着重在3方面进行了提升：

覆盖率（Coverage）：

该词向量数据集包含很多现有公开的词向量数据集所欠缺的短语，比如“不念僧面念佛面”、“冰火两重天”、“煮酒论英雄”、“皇帝菜”、“喀拉喀什河”等。

以“喀拉喀什河”为例，利用腾讯AI Lab词向量计算出的语义相似词如下：

墨玉河、和田河、玉龙喀什河、白玉河、喀什河、叶尔羌河、克里雅河、玛纳斯河

新鲜度（Freshness）：

该数据集包含一些最近一两年出现的新词，如“恋与制作人”、“三生三世十里桃花”、“打call”、“十动然拒”、“供给侧改革”、“因吹斯汀”等。

以“因吹斯汀”为例，利用腾讯AI Lab词向量计算出的语义相似词如下：

一颗赛艇、因吹斯听、城会玩、厉害了word哥、emmmmm、扎心了老铁、神吐槽、可以说是非常爆笑了

准确性（Accuracy）：

由于采用了更大规模的训练数据和更好的训练算法，所生成的词向量能够更好地表达词之间的语义关系，如下列相似词检索结果所示：

在开源前，腾讯内部经历了多次测评，认为该数据集相比于现有的公开数据集&#x

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。