210331初期客服main项目代码研读

最新推荐文章于 2024-08-10 16:40:36 发布

飞鸡110

最新推荐文章于 2024-08-10 16:40:36 发布

阅读量99

点赞数

分类专栏：项目实训

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_43414114/article/details/115345468

版权

项目实训专栏收录该内容

20 篇文章 2 订阅

订阅专栏

正则表达式的量词

策略：

贪心: 先吃尽所有的字符，然后每次吐出来一点，慢慢咀嚼消化。
懒惰: 每次只吃一点。 ？
占有:不咀嚼而是直接吞咽，然后才想知道吃的是什么。+（至少一个）

量词

？：零个或一个，
+：一个或多个
*：零个或多个（可以没有）

替换

re.sub(pattern, repl, string, count=0）

pattern : 正则字符串模式。
repl : 替换后的字符串，也可为一个函数。
string : 要被查找替换前的原始字符串。
count : 模式匹配后替换的最大次数，默认 0 表示替换所有的匹配。

df.replace(Value_old,Value_new,inplace=TRUE)

inplace，就地修改。可选。
使用花括号可以限制某个模式在某个范围内匹配的次数，未经修饰的量词就是贪心量词

命名实体(named entity)

所谓的命名实体就是人名、机构名、地名以及其他所有以名称为标识的实体。更广泛的实体还包括数字、日期、货币、地址等等

参考

[\s]表示，只要出现空白就匹配
[\S]表示，非空白就匹配

向前推动
倒推

完成情况
1 . Label 【（0为“查询”类别，1为“订票”类别，2为“终止服务”类别）】

数据的一致性问题
数据集针对性强，须增强gENERATION
token_pattern=r"(?u)\b\w+\b"
注意，这里自己指定token_pattern，否则sklearn会自动将一个字长度的单词过滤筛除
索引干啥的？
\s+

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。