七月在线NLP千元课程笔记

这是一份关于NLP的课程笔记,涵盖了正则表达式、Python基础、jieba分词、朴素贝叶斯、语言模型、LDA主题模型、统计机器翻译、隐马尔科夫模型、深度学习应用等内容。讲解了NLP中的词袋模型、词性标注、文本生成、词向量等关键概念,并通过实例演示了如垃圾邮件识别和词性标注的HMM应用。
摘要由CSDN通过智能技术生成


NLP七月在线
照着PDF的内容解释。
第一课

NLP基础知识
Python基础知识7分钟

正则表达式验证工具
https://regexr.com/v1/
基本字符
.匹配除了换行符外所有字符
\d匹配所有数字
能找到所有数字
\D除了数字之外的所有字符
\s匹配空格,换行,肉眼看到是空白的地方
\S除了空白之外的东西
大写都是小写的反面
\w数字,字母,下划线A--Z a--z 0--9之间的任意一个都会被匹配
\W除了刚才的东西
13分钟结束
指定多少个字符。
{}贪婪匹配
\d{2}同时找出2个连接的数字,如果是3,同时找3个链接在一起的
\d{2,5}2到5个数字

?匹配前一个0次或者1次
abc?表示字母c可以出现,也可以不出现
等价于abc{0,1}

*表示0次或者无限个
abc*表示ab或者abc,abccc,abccc等。要么不出现,要么匹配到结束

+至少出现一次
abc+不包含ab,包含abc, abcccc等无数c的情况

a(bc)+用括号表示组合,bc为一个整体,必须一起出现

[]括起来字符
[acd]找出段落中出现的acd,无论是否只有一个a,还是acd一起出现。

^匹配字符串开头
$匹配字符串末尾
^We$:匹配W开始,e结束的单词,中间只要是字符就行

\b匹配\w和\W之间

(at)|(ce)或者意思

^[a-f]+$
(...).*\1前面三个字符,后面也是相同的字符,中间字符无所谓

37分钟结束
re模块提供对正则表达式支持
import re
1 将正则表达式编译为pattern对象
2 使用pattern匹配文本,获得匹配结果,无法匹配返回none
3
使用match获取分组信息
flag可选值
re.compile()

实现一个匹配目标,字符串有多种写

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值