利用python进行自然语言处理——chap5-8

最新推荐文章于 2024-09-27 10:11:28 发布

foursight

最新推荐文章于 2024-09-27 10:11:28 发布

阅读量245

点赞数

分类专栏： NLP 文章标签： python

本文链接：https://blog.csdn.net/fouronesight/article/details/71483690

版权

4 篇文章 0 订阅

订阅专栏

前言：
笔记写的太详细就像在抄书了。准备简洁一点同时把作业源码陆续传到Github里（不过电脑是windows的，git在命令行里写总是很奇怪，这个工程不知道要拖到什么时候了)

另：
最近在学习使用Jekyll搭建个人blog。估计又要好久才完成了。看情况吧。先把这本书的笔记总结完

nltk.pos_tag(nltk.word_tokenize(string))
NLTK 中有已标注词性的语料库
一般使用dict类型进行词性存储

patterns = [(r'.*ing$', 'VBG'), (r'.*ed$', 'VBD')……]
regexp_tagger = nltk.RegexpTagger(patterns)
regexp_tagger.tag(string)

1-gram类似于查询标注器
n-gram添加上下文，包含当前词和前面n-1个标识符的词性标记

一般使用最频繁的词链表（show_most_informative_features())
进而添加上下文特征
训练模型等很基础
难点在于特征的选取

分块——标记词序列——探索文本语料库——
主要做实体命名识别

关注

专栏目录