正则表达式的量词
策略:
- 贪心: 先吃尽所有的字符,然后每次吐出来一点,慢慢咀嚼消化。
- 懒惰: 每次只吃一点。
?
- 占有:不咀嚼而是直接吞咽,然后才想知道吃的是什么。
+
(至少一个)
量词
?:零个或一个,
+:一个或多个
*:零个或多个(可以没有)
替换
re.sub(pattern, repl, string, count=0)
- pattern : 正则字符串模式。
- repl : 替换后的字符串,也可为一个函数。
- string : 要被查找替换前的原始字符串。
- count : 模式匹配后替换的最大次数,默认 0 表示替换所有的匹配。
df.replace(Value_old,Value_new,inplace=TRUE)
-
inplace,就地修改。可选。
-
使用花括号可以限制某个模式在某个范围内匹配的次数,未经修饰的量词就是贪心量词
命名实体(named entity)
所谓的命名实体就是人名、机构名、地名以及其他所有以名称为标识的实体。更广泛的实体还包括数字、日期、货币、地址等等
参考
[\s]表示,只要出现空白就匹配
[\S]表示,非空白就匹配
向前推动
倒推
完成情况
1 . Label 【(0为“查询”类别,1为“订票”类别,2为“终止服务”类别)】
-
数据的一致性问题
-
数据集针对性强,须增强gENERATION
-
token_pattern=r"(?u)\b\w+\b"
-
注意,这里自己指定token_pattern,否则sklearn会自动将一个字长度的单词过滤筛除
-
索引干啥的?
\s+