南有芙蕖-CSDN博客

原创 LeetCode刷题（二）：前言

作为一个对编程超级不通的小白，在2022年9月又又又开始打算正式的刷LeetCode。

2022-09-26 19:52:58 2496 2

原创 Seq2Seq 模型知识总结

Seq2Seq 模型允许我们使用长度不同的输入和输出序列，适用范围相当广，可用于机器翻译，对话系统，阅读理解等场景。Seq2Seq 模型使用时可以利用 Teacher Forceing，Attention，beam search 等方法优化。

2022-09-19 19:41:06 1201

LeetCode刷题1：第八周目录LeetCode刷题1：第八周前言一、知识点1.1 基本思想：1.2 一般步骤：1.3 子集树模板1.4排列树模板二、LeetCode例题1688. 比赛中的配对次数46. 全排列77. 组合131. 分割回文串22. 括号生成相关系列笔记：LeetCode刷题：前言LeetCode刷题1：第一周LeetCode刷题1：第二周LeetCode刷题1：第三周LeetCode刷题1：第四周LeetCode刷题1：第五周LeetCode刷题1：第六周LeetC

2021-04-28 20:05:36 676 6

原创行业知识图谱调查报告（三）：行业知识图谱应用及实践

行业知识图谱调查报告（三）：行业知识图谱应用及实践目录行业知识图谱调查报告（三）：行业知识图谱应用及实践四、行业知识图谱应用4.1 金融领域4.2 公安领域4.3 生物医疗领域4.4 教育领域4.5 司法领域4.6 零售电商领域4.7 政务领域4.8 图情领域4.9 企业商业领域4.10 制造业领域4.11 安全运营领域4.12 交通领域4.13 电网领域4.14 外交领域4.15 城建领域4.16 环保领域4.17 其他领域五、企业中的行业知识图谱实践结论参考文献相关系列笔记：行业知识图谱调查报告（

2021-04-28 17:08:25 3998 2

原创 WSDM 2021部分领域优秀论文合集（附下载链接）

WSDM 2021部分领域优秀论文合集目录WSDM 2021部分领域优秀论文合集分类DeepXML: A Deep Extreme Multi-Label Learning Framework Applied to Short Text DocumentsSemi-Supervised Text Classification via Self-PretrainingDECAF: Deep Extreme Classification with Label FeaturesModeling Across-C

2021-04-14 20:15:12 1085 1

原创 PaddleNLP实战——LIC2021关系抽取任务基线（附代码）

PaddleNLP实战——LIC2021关系抽取任务基线目录PaddleNLP实战——LIC2021关系抽取任务基线一、关系抽取基线评价方法1.1 快速复现基线Step1：构建模型1.2 快速复现基线Step2：加载并处理数据1.3 快速复现基线Step3：定义损失函数和优化器，开始训练1.4 快速复现基线Step4：提交预测结果二、Tricks2.1 尝试更多的预训练模型2.2 模型集成参考资料相关系列笔记：论文阅读：DuEE:A Large-Scale Dataset for Chinese E

2021-04-11 20:39:08 3077 2

原创 PaddleNLP实战——LIC2021事件抽取任务基线（附代码）

LIC2021事件抽取任务基线目录LIC2021事件抽取任务基线一、篇章级事件抽取基线1.1 评测方法1.2 快速复现基线Step1：数据预处理并加载1.3 快速复现基线Step2：构建模型1.4 快速复现基线Step3：数据处理1.5 快速复现基线Step4：定义损失函数和优化器，开始训练1.6 快速复现基线Step5：数据后处理，提交结果二、句子级事件抽取基线2.1 评测方法三、Tricks3.1 尝试更多的预训练模型3.2 修改模型网络结构3.3 模型集成参考资料论文阅读：DuEE:A Large

2021-04-09 19:15:27 6450 2

原创行业知识图谱调查报告（二）：知识图谱构建及行业知识图谱构建举例

行业知识图谱调查报告（二）：知识图谱构建及行业知识图谱构建举例目录行业知识图谱调查报告（二）：知识图谱构建及行业知识图谱构建举例二、知识图谱构建2.1 知识表示与建模2.1.1 知识表示模型2.1.2 知识表示学习2.2 知识获取2.2.1 实体识别与链接2.2.2 实体关系学习2.2.3 事件知识学习2.3 知识图谱查询与推理计算2.3.1 知识存储和查询2.3.2 知识推理三、行业知识图谱构建基本流程——以明略科技研为例3.1 行业知识图谱构建的关键步骤3.2 行业知识图谱的自动构建3.3 大规模行业

2021-04-08 15:21:51 2570

原创论文阅读：DuEE:A Large-Scale Dataset for Chinese Event Extraction in Real-World Scenarios（附数据集地址）

论文阅读：DuEE:A Large-Scale Dataset for Chinese Event Extraction in Real-World Scenarios 基于现实场景的大规模中文事件抽取数据集目录论文阅读：DuEE:A Large-Scale Dataset for Chinese Event Extraction in Real-World Scenarios 基于现实场景的大规模中文事件抽取数据集Abstract-摘要Keywords-关键词1 Introduction-引言2 Da

2021-04-07 21:59:08 7570 1

原创 LeetCode刷题1：第七周

LeetCode刷题：第七周目录LeetCode刷题：第七周前言一、知识点适用条件算法操作步骤二、LeetCode例题367. 有效的完全平方数剑指 Offer 42. 连续子数组的最大和162. 寻找峰值33. 搜索旋转排序数组1095. 山脉数组中查找目标值相关系列笔记：LeetCode刷题：前言LeetCode刷题：第一周LeetCode刷题：第二周LeetCode刷题：第三周LeetCode刷题：第四周LeetCode刷题：第五周LeetCode刷题：第六周LeetCode刷题：

2021-04-05 09:58:59 520 2

原创行业知识图谱调查报告（一）：知识图谱概述

行业知识图谱调查报告（一）：知识图谱概述目录行业知识图谱调查报告（一）：知识图谱概述前言一、知识图谱概述1.1 知识图谱概念及分类1.2 行业知识图谱基本情况1.3 知识图谱发展历程参考文献相关系列笔记：行业知识图谱调查报告（一）：知识图谱概述我自己整理的，有错误或者更好的资料欢迎指正，谢谢大家！！！前言当前人工智能的发展仍然处于弱人工智能的状态，研究重心由感知智能过渡到认知智能领域。知识图谱（Knowledge Graph）以结构化的形式描述客观世界中概念、实体及其关系，将互联网的信息表达

2021-04-02 21:21:46 2885

原创 LeetCode刷题1：第六周

LeetCode刷题：第六周目录**LeetCode刷题：第六周**前言知识点使用列表实现栈使用collections.deque实现栈使用queue module实现栈栈的应用LeetCode例题20. 有效的括号9. 回文数150. 逆波兰表达式求值856. 括号的分数145. 二叉树的后序遍历相关系列笔记：LeetCode刷题：前言LeetCode刷题：第一周LeetCode刷题：第二周LeetCode刷题：第三周LeetCode刷题：第四周LeetCode刷题：第五周LeetCod

2021-03-30 21:33:27 455 2

原创 LeetCode刷题1：第五周

LeetCode刷题：第五周目录LeetCode刷题：第五周前言一、知识点1.1 冒泡排序(Bubble Sort)1.2 选择排序(Selection Sort)1.3 插入排序(Insertion Sort)1.4 希尔排序(Shell Sort)1.5 快速排序(Quick Sort)1.6 归并排序(Merge Sort)1.7 堆排序(Heap Sort)1.8 基数排序(Radix Sort)1.9 计数排序（Counting Sort）1.10 桶排序（Bucket Sort）二、LeetC

2021-03-26 15:31:08 552 3

原创 LeetCode刷题1：第四周

LeetCode刷题：第四周目录LeetCode刷题：第四周前言知识点Python 字符串Python 访问字符串中的值Python 字符串更新Python转义字符Python字符串运算符Python字符串格式化在八进制数前面显示零('0')，在十六进制前面显示'0x'或者'0X'(取决于用的是'x'还是'X')Python三引号f-stringUnicode 字符串Python 的字符串内建函数python编程里字符串的内置方法LeetCode例题520. 检测大写字母680. 验证回文字符串 Ⅱ12.

2021-03-25 20:14:42 692 2

原创 LeetCode刷题1：第三周

LeetCode刷题：第三周目录LeetCode刷题：第三周前言知识点在字典中访问值更新字典元素删除字典元素LeetCode例题202. 快乐数217. 存在重复元素49. 字母异位词分组36. 有效的数独347. 前 K 个高频元素相关系列笔记：LeetCode刷题：前言LeetCode刷题：第一周LeetCode刷题：第二周LeetCode刷题：第三周前言 week3 Topic：哈希表，题目列表如下 (1) 202.快乐数 (2) 217.存在重复元素 (3

2021-03-20 21:01:11 559 4

原创 LeetCode刷题1：第二周

LeetCode刷题：第二周目录LeetCode刷题：第二周前言知识点1、链表2、单向链表的实现1）Node实现2） SinglelinkedList的实现3）检测链表是否为空4） add在链表前端添加元素5） append在链表尾部添加元素6） search检索元素是否在链表中7） index索引元素在链表中的位置8） remove删除链表中的某项元素9） insert链表中插入元素LeetCode例题22. 括号生成21. 合并两个有序链表148. 排序链表147. 对链表进行插入排序25. K 个

2021-03-19 16:34:46 459

原创论文阅读：Event Extraction by Answering (Almost) Natural Questions 基于自然问答的事件抽取（附源码地址）

论文阅读：Event Extraction by Answering (Almost) Natural Questions 基于自然问答的事件抽取目录论文阅读：Event Extraction by Answering (Almost) Natural Questions 基于自然问答的事件抽取Abstract-摘要1 Introduction-引言2 Methodology-方法论2.1 Framework Overview-框架概述2.2 Questioning Strategies-提问策略2.3

2021-03-13 17:17:11 2614 6

原创中文预训练模型泛化能力挑战赛（下）：上分技巧

中文预训练模型泛化能力挑战赛（下）：上分技巧目录中文预训练模型泛化能力挑战赛（下）：上分技巧一、比赛改进思路二、BERT模型的改进三、其他改进思路四、经验参考资料一、比赛改进思路修改 calculate_loss.py 改变loss的计算方式，从平衡子任务难度以及各子任务类别样本不均匀入手；修改 net.py 改变模型的结构，加入attention层，或者其他层；使用 cleanlab 等工具对训练文本进行清洗；做文本数据增强，或者在预训练时候用其他数据集pretrain；对训练好的模型再

2021-02-25 22:20:04 1723 2

原创交叉验证（Cross-Validation）

交叉验证（Cross-Validation）目录交叉验证（Cross-Validation）一、基本方法1、保留交叉验证 hand-out cross validation2、k折交叉验证 k-fold cross validation3、留一交叉验证 leave-one-out cross validation二、Bootstrapping三、用途四、主要事件五、实例代码参考资料交叉验证是在机器学习建立模型和验证模型参数时常用的办法，一般被用于评估一个机器学习模型的表现。更多的情况下，我们也用交叉

2021-02-23 10:22:49 74542 6

原创中文预训练模型泛化能力挑战赛（上）：Baseline

中文预训练模型泛化能力挑战赛（一）：Baseline目录中文预训练模型泛化能力挑战赛（一）：Baseline一、 Docker的使用1、Windows Docker 安装2、Win10 系统3、安装 Hyper-V4、开启 Hyper-V5、安装 Docker Desktop for Windows6、运行安装文件二、baseline的实现1、运行过程2、比赛改进思路三、遇到的问题1、win 10系统不满足要求解决办法：2、安装完docker，重启电脑出现“WSL 2 installation is in

2021-02-21 22:36:52 553 1

原创 LeetCode刷题1：第一周

LeetCode刷题：第一周目录LeetCode刷题：第一周前言知识点LeetCode例题26. 删除排序数组中的重复项88. 合并两个有序数组287. 寻找重复数11. 盛最多水的容器4. 寻找两个正序数组的中位数相关系列笔记：LeetCode刷题：前言LeetCode刷题：第一周前言本周Topic是【数组】，对应的5道题： 26.删除排序数组中的重复项 88.合并两个有效数组 287.寻找重复数 11.盛水最多的容器 4.寻找两个正序数组的中位数

2020-12-28 16:41:58 595

原创推荐系统入门（十）：新闻推荐实践5（附代码）

推荐系统入门（十）：新闻推荐实践5（附代码）目录推荐系统入门（十）：新闻推荐实践5（附代码）前言LGB模型DIN模型一、排序模型1.LGB排序模型2.LGB分类模型3.DIN模型二、模型融合1.加权融合2.Staking三、总结参考资料前言相关系列笔记：推荐系统入门（一）：概述推荐系统入门（二）：协同过滤（附代码）推荐系统入门（三）：矩阵分解MF&因子分解机FM（附代码）推荐系统入门（四）：Wide&Deep（附代码）推荐系统入门（五）：GBDT+LR（附代码）推荐系统入门

2020-12-05 12:30:00 2248

原创推荐系统入门（九）：新闻推荐实践4（附代码）

推荐系统入门（九）：新闻推荐实践4（附代码）目录推荐系统入门（九）：新闻推荐实践4（附代码）引言导包df节省内存函数定义数据路径数据读取训练和验证集的划分获取历史点击和最后一次点击读取训练、验证及测试集读取召回列表读取各种Embedding读取文章信息读取数据对训练数据做负采样将召回数据转换成字典用户历史行为相关特征用户和文章特征用户相关特征用户特征直接读入文章的特征直接读入召回文章的主题是否在用户的爱好里面保存特征总结参考资料引言相关系列笔记：推荐系统入门（一）：概述推荐系统入门（二）：协同过滤

2020-11-30 16:51:04 1910 2

原创推荐系统入门（八）：新闻推荐实践3（附代码）

推荐系统入门（八）：新闻推荐实践3（附代码）目录推荐系统入门（八）：新闻推荐实践3（附代码）引言导包读取数据工具函数获取用户-文章-时间函数获取文章-用户-时间函数获取历史和最后一次点击获取文章属性特征获取用户历史点击的文章信息获取点击次数最多的Top-k个文章定义多路召回字典召回效果评估计算相似性矩阵itemCF i2i_simuserCF u2u_simitem embedding sim召回Youtubednn召回架构itemCF recallitemCF sim召回embedding sim 召回

2020-11-30 16:02:04 1698

原创推荐系统入门（七）：新闻推荐实践2（附代码）

推荐系统入门（七）：新闻推荐实践2（附代码）目录推荐系统入门（七）：新闻推荐实践2（附代码）数据收集数据存储数据分析实战参考资料相关系列笔记：推荐系统入门（一）：概述推荐系统入门（二）：协同过滤（附代码）推荐系统入门（三）：矩阵分解MF&因子分解机FM（附代码）推荐系统入门（四）：Wide&Deep（附代码）推荐系统入门（五）：GBDT+LR（附代码）推荐系统入门（六）：新闻推荐实践1（附代码）推荐系统入门（七）：新闻推荐实践2（附代码）推荐系统一般有三类数据源，

2020-11-27 21:55:40 4083

原创推荐系统入门（六）：新闻推荐实践1（附代码）

推荐系统入门（六）：新闻推荐实践1目录推荐系统入门（六）：新闻推荐实践1前言赛题简介数据概况评价方式理解Baseline参考资料前言相关系列笔记：推荐系统入门（一）：概述推荐系统入门（二）：协同过滤（附代码）推荐系统入门（三）：矩阵分解MF&因子分解机FM（附代码）推荐系统入门（四）：Wide&Deep（附代码）推荐系统入门（五）：GBDT+LR（附代码）推荐系统入门（六）：新闻推荐实践1（附代码）移动联通互联网、人工智能等技术的迅速发展为人们的工作生活带来了很多便

2020-11-24 20:49:14 3769 13

原创 LeetCode刷题（一）：前言

作为一个对编程不通的小白，在2020年11月开始打算正式的刷LeetCode。

2020-11-02 16:00:05 719 3

原创推荐系统入门（五）：GBDT+LR（附代码）

推荐系统入门（五）：GBDT+LR（附代码）目录推荐系统入门（五）：GBDT+LR（附代码）引言1. GBDT模型2. LR模型3. GBDT+LR模型4. 编程实践实战思考参考资料引言相关系列笔记：推荐系统入门（一）：概述推荐系统入门（二）：协同过滤（附代码）推荐系统入门（三）：矩阵分解MF&因子分解机FM（附代码）推荐系统入门（四）：Wide&Deep（附代码）推荐系统入门（五）：GBDT+LR（附代码）前面介绍的协同过滤和矩阵分解存在的劣势就是仅利用了用户与物品

2020-10-28 19:35:48 5736

原创推荐系统入门（四）：Wide&Deep（附代码）

推荐系统入门（四）：Wide&Deep（附代码）目录推荐系统入门（四）：Wide&Deep（附代码）引言点击率预估简介FM它不香吗1.Wide&Deep模型2. “记忆能力”与“泛化能力”3. 操作流程4.实战5.深度学习推荐系统的发展思考参考资料引言点击率预估简介 1）点击率预估是用来解决什么问题？点击率预估是对每次广告点击情况作出预测，可以输出点击或者不点击，也可以输出该次点击的概率，后者有时候也称为pClick。 2）率预估模型需要做什么？通过上

2020-10-26 20:39:16 4420 3

原创推荐系统入门（三）：矩阵分解MF&因子分解机FM（附代码）

推荐系统入门（三）：矩阵分解MF&因子分解机FM（附代码）目录推荐系统入门（三）：矩阵分解MF&因子分解机FM（附代码）一、矩阵分解MF1. 隐含语义分析技术1.1 隐语义模型1.2 矩阵分解算法1.3 矩阵分解算法求解2. Funk-SVD算法3. Bias SVD算法4. 编程实现思考二、因子分解机FM1. FM模型的引入1.1 逻辑回归模型及其缺点1.2 二阶交叉项的考虑及改进2. FM公式的理解3. FM模型的应用4. 代码实践4.1 调包实现4.1.1 电影评分数据集实战4.

2020-10-24 14:58:12 10224 8

原创推荐系统入门（二）：协同过滤（附代码）

推荐系统入门（二）：协同过滤（附代码）目录推荐系统入门（二）：协同过滤（附代码）引言1. 相似性度量方法1.1 杰卡德(Jaccard)相似系数1.2 余弦相似度1.3 皮尔逊相关系数2. 基于用户的协同过滤2.1 UserCF编程实现2.2 UserCF优缺点3. 基于物品的协同过滤4. 算法评估5. 协同过滤算法的权重改进6.协同过滤推荐算法存在的问题6.1 数据稀疏性的问题6.2 冷启动问题6.3 扩展性问题6.4 泛化能力弱的问题6.5 其它一些问题和挑战扩展代码参考资料引言协同过滤（C

2020-10-21 20:40:18 12209 4

原创推荐系统入门（一）：概述

推荐系统基础（一）：概述目录推荐系统基础（一）：概述

2020-10-17 16:22:10 4407 3

原创论文阅读：Attention Is All You Need【注意力机制】

论文阅读：Attention Is All You Need原文链接：Attention Is All You Need作者： Ashish Vaswani；Noam Shazeer；Niki Parmar；Jakob Uszkoreit；Llion Jones；Aidan N. Gomez； Łukasz Kaiser；Illia Polosukhin目录论文阅读：Attention Is All You Need摘要1 介绍2 背景3 模型架构3.1 编码器和解码器堆栈3.2 注意力机制3.2

2020-10-12 20:02:12 7694 2

原创博客阅读：图解Transformer（The Illustrated Transformer）

博客阅读：图解Transformer（The Illustrated Transformer）原文链接：https://jalammar.github.io/illustrated-transformer/作者：Jay Alammar目录博客阅读：图解Transformer（The Illustrated Transformer）前言1.整体结构（A High-Level Look）图的引入（Bringing The Tensors Into the Picture）2.Encoder编码器（No

2020-10-10 13:28:12 2159 1

原创论文阅读：BERT：Pre-training of Deep Bidirectional Transformers for Language Understanding

论文阅读：BERT：Pre-training of Deep Bidirectional Transformers for Language Understanding 预训练的深度双向 Transformer 语言模型原文链接：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 作者：Jacob Devlin,Ming-Wei Chang,Kenton Lee,Kristina To

2020-10-07 21:52:51 1590 2

原创监督学习（五）：LightGBM算法

监督学习（五）：LightGBM算法提升树是利用加法模型和前向分布算法实现学习的优化过程，它有一些高效的实现，如GBDT，XGBoost和pGBRT，其中GBDT是通过损失函数的负梯度拟合残差，XGBoost则是利用损失函数的二阶导展开式拟合残差。但是，当面对大量数据集和高维特征时，其扩展性和效率很难令人满意，最主要的原因是对于每一个特征，它们需要扫描所有的样本数据来获得最优切分点，这个过程是非常耗时的。本文介绍基于GBDT的另一种形式 LightGBM ， LightGBM 是基于直

2020-09-30 14:53:10 2382

原创监督学习（四）：XGBoost算法

监督学习（四）：XGBoost算法 XGBoost（eXtreme Gradient Boosting）全名叫极端梯度提升，XGBoost是集成学习方法的王牌，在Kaggle数据挖掘比赛中，大部分获胜者用了XGBoost，XGBoost在绝大多数的回归和分类问题上表现的十分顶尖，本文较详细的介绍了XGBoost的算法原理。目录监督学习（四）：XGBoost算法1. 最优模型的构建方法2. Boosting的回归思想3. XGBoost的目标函数推导4. XGBoost的回归树构建方法5. XGBo

2020-09-29 14:47:43 2588

原创数据挖掘实践（金融风控-贷款违约预测）（五）：模型融合

数据挖掘实践（金融风控-贷款违约预测）（五）：模型融合

2020-09-26 19:51:54 1505 1

原创数据挖掘实践（金融风控-贷款违约预测）（四）：建模与调参

数据挖掘实践（金融风控-贷款违约预测）（四）：建模与调参

2020-09-24 17:06:42 3095 1

中文实体关系抽取数据集 Chinese-Literature-NER-RE-Dataset

基于几个可用的NER和RE数据集定义了7个实体标签和9个关系标签。实体(Entity)：每个实体都由带有多个属性的T标签标识。关系(Relation):每个关系由R标签标识，该标签可以具有多个属性。

2020-10-05

yidu-s4k 医渡云结构化4K数据集

Yidu-S4K 数据集源自CCKS 2019 评测任务一，即“面向中文电子病历的命名实体识别”的数据集，包括两个子任务：1）医疗命名实体识别；2）医疗实体及属性抽取（跨院迁移）。

2020-08-16

ChnSentiCorp中文情感分析数据集

ChnSentiCorp 是一个中文情感分析数据集，包含酒店、笔记本电脑和书籍的网购评论。

2021-04-09

复旦中文文本分类语料库.zip

本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料，共9833篇文档；train_corpus.rar为训练语料，共9804篇文档，两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。（使用时尽量注明来源（复旦大学计算机信息与技术系国）

2020-08-26

MSRA-NER 中文命名实体识别

MSRA-NER (SIGHAN2006) 数据集由微软亚研院发布，其目标是识别文本中具有特定意义的实体，包括人名、地名、机构名。

2021-04-09

中文医疗问答数据-好大夫.zip

来自某在线求医产品的中文医患对话数据。原始描述:The MedDialog dataset contains conversations (in Chinese) between doctors and patients.

2020-08-16

瑞金医院糖尿病数据集

数据集来自天池大赛。此数据集旨在通过糖尿病相关的教科书、研究论文来做糖尿病文献挖掘并构建糖尿病知识图谱。

2020-08-16

XNLI 自然语言推断数据集

XNLI 是由 Facebook 和纽约大学的研究者联合构建的自然语言推断数据集，包括 15 种语言的数据。我们用其中的中文数据来评估模型的语言理解能力。

2021-04-09

glove.6B（词向量）.zip

官网glove.6B的词向量，里面包含了50d、100d、200d、300d常用英文单词的词向量，来源于wiki百科和Gigaword数据集。

2020-07-29

NLPCC2016-DBQA 中文问答

NLPCC2016-DBQA 是由国际自然语言处理和中文计算会议 NLPCC 于 2016 年举办的评测任务，其目标是从候选中找到合适的文档作为问题的答案

2021-04-09

2020年中国面向人工智能“新基建”的知识图谱行业白皮书.pdf

2020年中国面向人工智能“新基建”的知识图谱行业白皮书

2021-03-27

2018自然语言处理研究报告.pdf

该报告从 NLP 的概念介绍、研究与应用情况、专家学者概要以及发展趋势这 5 个方向纵览了这一领域的当下与未来。（1）自然语言处理概念。（2）自然语言处理研究情况。（3）自然语言处理领域专家介绍。（4）自然语言处理的应用及趋势预测。

2020-08-05

cnews（文本分类）.zip

cnews中文文本分类数据集，是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。

2020-08-05

Stanford Sentiment Treebank 标准情感数据集

Stanford Sentiment Treebank 是一个标准情感数据集，主要用于情感分类，其中每个句子分析树的节点均有细粒度的情感注解。该数据集由斯坦福大学的 NLP 组发布，其中句子和短语共计 239232 条，相较于忽略单词顺序的大多数情绪预测系统，这套深度学习模型建立了基于句子结构的完整表示。它可根据单词组成的短语判断情绪。该数据集由斯坦福大学自然语言处理组于 2013 年发布，相关论文有《Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank》。

2021-03-30

WikiText Long Term Dependency Language Modeling Dataset 长期依赖语言建模数据集

WikiText 长期依赖语言建模数据集包含 1 亿个英文词汇，其来自于 Wikipedia 优质文章和标杆文章。该数据集分为 WikiText-2 和 WikiText-103 两个版本，其相较于 PTB 词库规模更为庞大，并且每个词汇还保留相关的原始文章，这适用于需要长时依赖自然语言建模的场景。该数据集由 Salesforce Research 于 2016 年发布，主要发布人为 Stephen Merity、Caiming Xiong、James Bradbury 和 Richard Socher，相关论文有《Pointer Sentinel Mixture Models》。

2021-04-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

中文实体关系抽取数据集 Chinese-Literature-NER-RE-Dataset

yidu-s4k 医渡云结构化4K数据集

ChnSentiCorp中文情感分析数据集

复旦中文文本分类语料库.zip

MSRA-NER 中文命名实体识别

中文医疗问答数据-好大夫.zip

瑞金医院糖尿病数据集

XNLI 自然语言推断数据集

glove.6B（词向量）.zip

NLPCC2016-DBQA 中文问答

2020年中国面向人工智能“新基建”的知识图谱行业白皮书.pdf

2018自然语言处理研究报告.pdf

cnews（文本分类）.zip

Stanford Sentiment Treebank 标准情感数据集

WikiText Long Term Dependency Language Modeling Dataset 长期依赖语言建模数据集

cMedQA2（中文医学问答数据集）

2016中文信息处理发展报告.pdf

Sentiment Analysis 中文情感分析

CMRC2018 中文阅读理解

49份知识图谱行业报告整理.zip

GMB（Groningen Meaning Bank）语料

空空如也