coursera NLP学习笔记之week1课程介绍&基础的文本处理

NLP简介

NLP的任务:1、问题回答(question answering)2、信息提取(information extraction)3、信息提取和情感分析(information extraction & sentiment analysis)4、机器翻译(machine translation) 

NLP研究状况:一、{1、垃圾右键识别(spam detection)2、词性标注(part of speechtagging)3、命名实体识别(NER named entity recognition)}已经解决(mostly solved)

    二、{1、情感分析 2、指代消解 (coreference resolution) 3 词义消歧(word sense disambiguation(WSD))4、句子解析(parsing) 5、机器翻译(machine translation) 6 、信息提取(information extraction)}已取得很大进展。

    三、{1、问答系统 (question answering)2、意译(paraphrase)3、总结(summarization)4、对话系统(dialog)}比较困难

基本的文本处理

一、正则表达式

1、匹配邮件地址     [a-zA-Z0-9][^ \t\n\f\r\"<>|()\u00A0]*@([^ \t\n\f\r\"<>|().\u00A0]+\.)+[a-zA-Z]{2,4} (主要是理解正则表达式的原理)

  juraf8sky@stanford.edu
jurafsky@126.stanford.edu
jurafsky@csli.stanford.edu
jurafsky@csli.stanford.edu

2、匹配电话号码 (\([0-9]{3}\)[ \u00A0]?|[0-9]{3}[\- \u00A0.])[0-9]{3}[\- \u00A0.][0-9]{4}(\u00A0表示无间断空白)

+1-650-723-0293
(650) 723-0293
650-723-0293

3、单词正则化和词干化(word normalization and stemming)

1、Normalization

需要正则化的项目有:信息提取(Information Retrieval)indexed text & query terms must have same form

         我们隐含的定义等价类的术语   We implicitly define equivalence classes of terms(这个有些不懂不知道什么意思)

一个替代方案:非对称扩张 Alternative: asymmetric expansion    例子:当我们搜索window的时候搜索的不仅是window还有windows,甚至还有door。

正则化可能更为强大,但是效率较低。

2、大写字母转换为小写(case folding )

在IR中经常会把大写字母变为小写以便于处理,但是对于情感分析和机器翻译来说字母的大小写是很有用的一个特征。

3、词形还原(lemmatization)

am,are is --> be   car,cars,car's,cars' ---> car    the boy's cars are different  colors --> the boy car be different color

 如果进行词形还原的话,必须找到对的原形。

4、形态学(Morphology)

语素:组成单词的最小的有意义的单元

词干:核心含义单元

词缀:词干的附属或者说叫点缀(Affixes: Bits and pieces that adhere to stems)期待更好翻译

5、stemming

词干化是指粗略的把单词的后缀给去除掉。

示例:

波特词干化算法:



这个代码google一下很多的。

做了课程安排的作业感觉学到了不少东西,最主要的是让自己耐心下来了。第一篇,继续努力加油吧!


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值