Part-of-Speech 标记 含义

一、33个

Definitions of Chinese Part-of-Speech
中文词性标注(33)
[1]     AD    副词  Adverbs
[2]     AS    语态词  --- 了
[3]     BA    把
[4]     CC    并列连接词(coordinating conj)
[5]     CD    许多(many),若干(several),个把(a,few)
[6]     CS    从属连接词(subording conj)
[7]     DEC   从句“的”
[8]     DEG   修饰“的”
[9]     DER   得 in V-de-const, and V-de R
[10]    DEV   地 before VP
[11]    DT    限定词   各(each),全(all),某(certain/some),这(this)
[12]    ETC   for words 等,等等
[13]    FW    外来词 foreign words
[14]    IJ     感叹词  interjecton
[15]    JJ     名词修饰语
[16]    LB    被,给   in long bei-const
[17]    LC    方位词
[18]    M     量词
[19]    MSP   其他小品词(other particle) 所
[20]    NN    口头名词、others
[21]    NR    专有名词
[22]    NT    时间名词  (temporal noun)
[23]    OD    序数(ordinal numbers)
[24]    ON    拟声法(onomatopoeia)
[25]    P      介词   (对,由于,因为)(除了 “把”和“被”)
[26]    PN    代词
[27]    PU    标定符号
[28]    SB    in short bei-const 被,给
[29]    SP    句尾语气词
[30]    VA    表语形容词(predicative adjective)
[31]    VC    是
[32]    VE    有(have,not have ,有,无,没,表示存在的词
[33]    VV    情态动词、  动词、possess/拥有 ,rich/富有,具有

CoNLL数据中使用的

摘自:http://blog.sina.com.cn/s/blog_4d76b9b50100elng.html
二、ICTCLAS中使用的

1.         名词  (1个一类,7个二类,5个三类)

名词分为以下子类:

n 名词

nr 人名

nr1 汉语姓氏

nr2 汉语名字

nrj 日语人名

nrf 音译人名

ns 地名

nsf 音译地名

nt 机构团体名

nz 其它专名

nl 名词性惯用语

ng 名词性语素

2.         时间词(1个一类,1个二类)

t 时间词

tg 时间词性语素

3.         处所词(1个一类)

s 处所词

4.         方位词(1个一类)

f 方位词

5.         动词(1个一类,9个二类)

v 动词

vd 副动词

vn 名动词

vshi 动词“是”

vyou 动词“有”

vf 趋向动词

vx 形式动词

vi 不及物动词(内动词)

vl 动词性惯用语

vg 动词性语素

6.         形容词(1个一类,4个二类)

a 形容词

ad 副形词

an 名形词

ag 形容词性语素

al 形容词性惯用语

7.         区别词(1个一类,2个二类)

b 区别词

 

bl 区别词性惯用语

8.         状态词(1个一类)

z 状态词

9.         代词(1个一类,4个二类,6个三类)

r 代词

rr 人称代词

rz 指示代词

rzt 时间指示代词

rzs 处所指示代词

rzv 谓词性指示代词

ry 疑问代词

ryt 时间疑问代词

rys 处所疑问代词

ryv 谓词性疑问代词

rg 代词性语素

10.    数词(1个一类,1个二类)

m 数词

mq 数量词

11.    量词(1个一类,2个二类)

q 量词

qv 动量词

qt 时量词

12.    副词(1个一类)

d 副词

13.    介词(1个一类,2个二类)

p 介词

pba 介词“把”

pbei 介词“被”

14.    连词(1个一类,1个二类)

c 连词

    cc 并列连词

15.    助词(1个一类,15个二类)

u 助词

uzhe

ule 了喽

uguo

ude1 的底

ude2

ude3

usuo

udeng 等等等云云

uyy 一样一般似的般

udh 的话

uls 来讲来说而言说来

 

uzhi

ulian 连(“连小学生都会”)

 

16.    叹词(1个一类)

e 叹词

17.    语气词(1个一类)

y 语气词(delete yg)

18.    拟声词(1个一类)

o 拟声词

19.    前缀(1个一类)

h 前缀

20.    后缀(1个一类)

k 后缀

21.    字符串(1个一类,2个二类)

x 字符串

    xx 非语素字

    xu 网址URL

22.    标点符号(1个一类,16个二类)

w 标点符号

wkz 左括号,全角:(〔     《【  〖〈   半角:( [ { <

wky 右括号,全角:)〕 ]}》 】〗〉半角: ) ] { >

wyz 左引号,全角:“‘『 

wyy 右引号,全角:”’』

wj 句号,全角:。

ww 问号,全角:?半角:?

wt 叹号,全角:!半角:!

wd 逗号,全角:,半角:,

wf 分号,全角:;半角: ;

wn 顿号,全角:、

wm 冒号,全角::半角: :

ws 省略号,全角:…… 

wp 破折号,全角:——   --   ——-  半角:---  ----

wb 百分号千分号,全角:%‰  半角:%

wh 单位符号,全角:¥$£  °   半角:$

摘自:ICTCLAS 文档

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
About A Part-Of-Speech Tagger (POS Tagger) is a piece of software that reads text in some language and assigns parts of speech to each word (and other token), such as noun, verb, adjective, etc., although generally computational applications use more fine-grained POS tags like 'noun-plural'. This software is a Java implementation of the log-linear part-of-speech taggers described in these papers (if citing just one paper, cite the 2003 one): Kristina Toutanova and Christopher D. Manning. 2000. Enriching the Knowledge Sources Used in a Maximum Entropy Part-of-Speech Tagger. In Proceedings of the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora (EMNLP/VLC-2000), pp. 63-70. Kristina Toutanova, Dan Klein, Christopher Manning, and Yoram Singer. 2003. Feature-Rich Part-of-Speech Tagging with a Cyclic Dependency Network. In Proceedings of HLT-NAACL 2003, pp. 252-259. The tagger was originally written by Kristina Toutanova. Since that time, Dan Klein, Christopher Manning, William Morgan, Anna Rafferty, Michel Galley, and John Bauer have improved its speed, performance, usability, and support for other languages. The system requires Java 1.6+ to be installed. Depending on whether you're running 32 or 64 bit Java and the complexity of the tagger model, you'll need somewhere between 60 and 200 MB of memory to run a trained tagger (i.e., you may need to give java an option like java -mx200m). Plenty of memory is needed to train a tagger. It again depends on the complexity of the model but at least 1GB is usually needed, often more. Several downloads are available. The basic download contains two trained tagger models for English. The full download contains three trained English tagger models, an Arabic tagger model, a Chinese tagger model, and a German tagger model. Both versions include the same source and other required files. The tagger can be retrained on any language, given POS-annotated training text for the language.
显象: 文本预处理是自然语言处理中的重要步骤,它可以帮助我们将自然语言文本转化为计算机可以理解和处理的形式。在文本预处理过程中,我们常常会进行分词、词性标注、停用词去除、词干化与词形还原等操作。 真象: 在文本预处理中,我们需要处理的是自然语言文本。自然语言文本可以包含不同的场景和需求,比如新闻文章、社交媒体评论、电子邮件等。这些文本可能涉及到不同的实体、概念和术语。 特征: 分词是将连续的文本划分成一个个独立的词语或标记的过程。词性标注是为每个词语标注其在句子中的词性,比如名词、动词、形容词等。停用词指那些在文本中频繁出现但通常不携带太多信息的词语,如“的”、“是”、“在”等。去除停用词可以减少噪音,提高后续处理的效果。词干化和词形还原是将单词还原为其原始形式或词干的过程,减少不同形式的单词对模型造成的干扰。 现象: 文本预处理的功能包括提取关键词、构建词袋模型、计算词频、构建词向量等。通过文本预处理,我们可以更好地理解文本内容,从而进行下一步的文本分析和处理。对于分词、词性标注、去除停用词等操作,其评价标准可以是准确性、速度和适用性等。 变化: 在实际应用中,我们可以根据具体需求和场景选择不同的文本预处理方法和工具进行组合。例如,可以使用分词工具库如jieba、NLTK等进行分词操作,使用词性标注工具库如NLTK、Stanford NLP等进行词性标注。停用词列表可以根据领域特定的需求进行定制,词干化和词形还原可以选择不同的方法和库进行实现。整个文本预处理过程可以形成一个流程,按照特定的顺序和规则进行处理。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值