210331初期客服main项目代码研读

正则表达式的量词

策略:

  • 贪心: 先吃尽所有的字符,然后每次吐出来一点,慢慢咀嚼消化。
  • 懒惰: 每次只吃一点
  • 占有:不咀嚼而是直接吞咽,然后才想知道吃的是什么。+(至少一个)

量词

?:零个或一个,
+:一个或多个
*:零个或多个(可以没有)

替换

re.sub(pattern, repl, string, count=0)

  • pattern : 正则字符串模式
  • repl : 替换后的字符串,也可为一个函数。
  • string : 要被查找替换前的原始字符串。
  • count : 模式匹配后替换的最大次数,默认 0 表示替换所有的匹配。

df.replace(Value_old,Value_new,inplace=TRUE)

  • inplace,就地修改。可选。

  • 使用花括号可以限制某个模式在某个范围内匹配的次数,未经修饰的量词就是贪心量词

命名实体(named entity)

所谓的命名实体就是人名、机构名、地名以及其他所有以名称标识实体。更广泛的实体还包括数字、日期、货币、地址等等

参考

[\s]表示,只要出现空白就匹配
[\S]表示,非空白就匹配

向前推动
倒推

完成情况
1 . Label 【(0为“查询”类别,1为“订票”类别,2为“终止服务”类别)】

  1. 数据的一致性问题

  2. 数据集针对性强,须增强gENERATION

  3. token_pattern=r"(?u)\b\w+\b"

  4. 注意,这里自己指定token_pattern,否则sklearn会自动将一个字长度的单词过滤筛除

  5. 索引干啥的?
    \s+

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值