中文数据标记练习(一)

练习一

标注原文:

章遥依的手机震动个不停 ,不断有微博私信或者评论进来,不少是指责和谩骂。他/屏蔽了很多人,关掉了私信和评论,但是还是有找到他朋友的微博继续留言。人们是通过山东大学官方微博找到他的。7月12日,山东大学发布了一条声明,针对 网络上闹得沸沸扬扬的学伴事件加以说明并致歉。

作为山东大学应届毕业生,章遥依一直在关注这件事,每天都能看到无数对学校和校友指责,但他求证后,认为一对三学伴制度事实上并不存在,看不过去的他在山东大学官微下方评论道:“山大需要道歉的到底是什么呢?山大学生所受到的恶意攻击和侮辱由谁来负责?

标注练习:

章遥依/nr的/u手机/n震动/v个/u不停/v ,/w不断/d有/v微博/n私信/n或者/c评论/n进来/v,不少/m是/v指责/v和/c谩骂/v。/w他/r屏蔽/v了/u很多/m人/n,/w关掉/v了/u私信/n和/c评论/n,/w但是/c还是/d有/v找到/v他/r朋友/n的/u微博/n继续/ad留言/v。/w

人们/n是/v通过/p山东大学/nt官方/a微博/nz找到/v他/r的/u。/w7月/t12日/t,/w山东大学/nt发布/v了/u一/m条/q声明/n,/w针对 /v网络/n上/f闹得/v沸沸扬扬/a的/u学伴事件/n加以说明/v并/c致歉/v。/w

作为/v山东大学/nt应届/a毕业生/n,/w章遥依/nr一直/d在/p关注/v这/r件/m事/n,/w每天/r都/d能/v看到/v无数/m对/v学校/n和/c校友/n指责/v,/w但/c他/r求证/v后/f,/w认为/v一对三学伴制度/z事实/n上/f并不/d存在/v,/w看/v不/d过去/v的/u他/r在/p山东大学/nt官微/j下方/f评论/v道/v:/w“/w山大/j需要/d道歉的/a到底/d是/v什么/v呢/y?/w山大/j学生/n所p受到/v的/u恶意/a攻击n和/c侮辱/n由/p谁/r来/负责/v。/w

标记笔记

副词(/d):用来修饰动词,限制动词或形容词以表示时间、频率、范围、语气、程度等。
例子:表程度:(很、最、极、太、非常、十分)
表时间:(已、已经、曾、曾经、刚、才、刚刚、正)
表范围: (都、总、共、总共、统统、只)
表方式:(亲自、猛然、忽然、公然、连忙)
表语气:(难道、岂、究竟、偏偏、索性、简直)
肯否定:(必须、必定、准、的确、不、没有)
表方位:(处处、到处、四处、随处)

连词(\c):是一种虚词, 它不能独立担任句子成分而只起连接词与词,短语与短语以及句与句的作用。连词主要可分为4类:并列连词.转折连词.选择连词和因果连词。连词也可以分为2类:并列连词和从属连词。
例子:并列连词:有 和、跟、与、同、及、而、况、况且、何况、乃至等。
   承接连词:有 则、乃、就、而、于是、至于、说到、此外、像、如、一般、比方等。
   转折连词:有 却、但是、然而、而、偏偏、只是、不过、至于、致、不料、岂知等。
   因果连词:有 原来、因为、由于、以便、因此、所以、是故、以致等。
   选择连词:有 或、抑、非…即、不是…就是等。
   假设连词:有 若、如果、若是、假如、假使、倘若、要是、譬如等。
   比较连词:有 像、好比、如同、似乎、等于;不如、不及;与其…不如、若…则、虽然…可是等
   让步连词:有 虽然、固然、尽管、纵然、即使等。
   
注:上述标记若有异议,还望在评论里提出,笔者将及时修正。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
对于标记训练数据集,您可以遵循以下步骤: 1. 定义标记任务:确定您希望对数据集进行哪种类型的标记,例如文本分类、命名实体识别或情感分析等。 2. 创建标记规则:根据标记任务的要求,制定一套明确的标记规则。这些规则可以是基于预定义的标签集或者自定义的标签。 3. 准备数据集:将需要进行标记数据整理成适当的格式,例如文本数据可以是一行一条记录或者一个文件中包含多条记录。 4. 分配标记任务:将数据集分配给标注人员或者使用自动化工具进行标记。确保为每个样本分配一个唯一的标识符,以便追踪和验证标注结果。 5. 进行标记:按照标记规则,将每个样本进行标记,并将结果记录下来。可以使用标记工具、脚本或者自定义开发的应用程序来辅助标记过程。 6. 校验和修正:对一部分已经标记数据进行校验,确保标记结果符合预期。如果发现错误或不一致性,及时与标注人员沟通并进行修正。 7. 数据集拆分:根据需要,将标记完成的数据集划分为训练集、验证集和测试集等不同的子集。确保每个子集中的样本都具有代表性和多样性。 8. 数据质量控制:进行数据质量控制,包括检查标注错误、处理标签不平衡、处理噪声数据等。这可以通过数据分析、可视化和统计方法来完成。 9. 文档化和共享:记录标记规则、数据集的详细说明和元数据信息,并将数据集存储在适当的位置,以便团队成员可以访问和使用。 10. 持续迭代:根据反馈和模型表现,不断改进标记规则和数据集,以提高训练模型的效果。 请注意,标记训练数据集可能需要大量的时间和资源,并且需要确保标记人员具备相关领域知识和标注技巧。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值