自然语言处理
Junruiqwertyuiop
我是一只小菜鸟
展开
-
作为BERT模型命名实体识别任务的输入,对于IBO标注数据进行检测判断标注正确性
从2018年google提出bert后,一直在使用bert模型作为训练基础经常会需要标注语料数据在数据量极大的情况下,数万标注后头晕眼花,如何快速差错也是一个问题于是设置了3条规则作为检查的基本属性,后续欢迎补充前置:我们有一个充满label的标签还有一个已经做好标注的语料1.标签的正确性:首先我们要保证每个字后面的标签不会因为我们的手误或者复制粘贴出...原创 2020-05-02 08:05:48 · 1522 阅读 · 0 评论 -
各领域机器学习数据集汇总(附下载地址)
大学公开数据集(Stanford)69G大规模无人机(校园)图像数据集【Stanford】http://cvgl.stanford.edu/projects/uav_data/人脸素描数据集【CUHK】http://mmlab.ie.cuhk.edu.hk/archive/facesketch.html自然语言推理(文本蕴含标记)数据集【NYU】https://www.ny...转载 2019-10-21 22:05:28 · 5623 阅读 · 0 评论 -
自然语言分词词性标注指代
自然语言文本处理通常需要进行词性标注,下面是常见标注 ROOT:要处理文本的语句IP:简单从句NP:名词短语VP:动词短语PU:断句符,通常是句号、问号、感叹号等标点符号LCP:方位词短语PP:介词短语CP:由‘的’构成的表示修饰性关系的短语DNP:由‘的’构成的表示所属关系的短语ADVP:副词短语ADJP:形容词短语DP:限定词短语QP:量词短语NN:常用名词...原创 2018-12-19 13:29:27 · 1826 阅读 · 0 评论 -
python命名实体抽取学习记录
转载https://blog.csdn.net/lalalawxt/article/details/55804384一、命名实体识别基本概念 信息有多种表现形式,一个重要的形式就是结构化数据:即实体和关系的规范和可预测的组织。而现实生活中大多数自然语言句子是非结构化数据,为从文本获得其意义,我们首先需要将自然语言数据转化为结构化数据,然后利用强大的查询工具,如sql。这种...转载 2018-12-09 13:01:12 · 2687 阅读 · 0 评论 -
基于windows 10 的pyltp的安装和配置 及错误总结
windows10 下 安装配置 python版本的ltp pyltppyltp 是 语言技术平台(Language Technology Platform, LTP)的 Python 封装。这里附pyltp的使用文档:http://pyltp.readthedocs.io/以及pyltp其他版本的使用教程:https://ltp.readthedocs.io/zh_CN/latest...原创 2018-12-09 17:09:41 · 1580 阅读 · 2 评论 -
NLP文本语料库
ChineseNlpCorpus搜集、整理、发布中文自然语言处理 语料/数据集,与有志之士共同促进中文自然语言处理 的 发展。情感/观点/评论 倾向性分析1、ChnSentiCorp_htl_all 数据集 数据概览:7000 多条酒店评论数据,5000 多条正向评论,2000 多条负向评论 下载地址: https://github.com/Sophon...翻译 2019-03-29 20:25:20 · 7402 阅读 · 1 评论 -
意图识别与槽填充(填槽的概念)
转载于:https://blog.csdn.net/u010159842/article/details/80759428原文链接:http://t.cn/RE0FkgD跳槽,吐槽,匹诺曹都听过,这个填槽,emmmm,黑人问号脸???写到这吐槽下,本来只是想写下填槽的过程,后来发现这东西不理解chatbot的对话系统的话,没法讲,看的人很容易一头雾水。还是先简单讲下对话...转载 2019-03-24 10:03:22 · 13754 阅读 · 1 评论