正则去除字符串中的特殊字符

最新推荐文章于 2023-01-05 19:53:43 发布

我是小蜗蜗牛

最新推荐文章于 2023-01-05 19:53:43 发布

阅读量1.2w

点赞数

分类专栏：菜鸟进阶之路文章标签：正则 utf-8 python

本文链接：https://blog.csdn.net/aixiaowowoniu/article/details/77878979

版权

菜鸟进阶之路专栏收录该内容

9 篇文章 0 订阅

订阅专栏

做文本处理时，当需要去除文本中当特殊字符（这里是除了中文、英文、数字以外当字符），可以使用正则表达式，快捷方便。因为文本中有中文，所以字符串要保证是‘utf-8‘格式。

str = u'活动规则：@ 3个好友转发并评论这条微博即可 。⚠️（评论获赞��最多的前三名为幸运粉丝[污]）截  '
str = re.sub(ur'[^\u4e00-\u9fa5a-zA-Z0-9]', ',', str)  # 这里用','替代文本中的特殊字符
str = re.sub(ur',{2,}', ',', str, re.S)#删除重复‘,‘
print str

结果

活动规则,3个好友转发并评论这条微博即可,评论获赞,最多的前三名为幸运粉丝,污,截,

可以看到所有的特殊字符都被替换成‘,‘,后续进行jieba分词就easy了

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

我是小蜗蜗牛

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

java中去掉字符串中的特殊符号(杂质)，解决方案

hkl_Forever的博客

07-14

951

在实际业务中，常常会遇到需要把某个字符串中的特殊符号全部去掉，只保留数字、大小写字母、汉字等。（1）从结果输出可以看到，字符串中几乎包含了所有特殊符号，最后都能去除干净，只保留了数字、大小写字母、汉字。去除后结果：我是中文这是数字0123456789字母aABbcd。

利用正则表达式排除特定字符串

05-08

4384

查找不以baidu开头的字符串 baidu.comsina.com.cn 正则：^(?!baidu).*$ 匹配结果就是第2行，也就是第1行被排除了这里使用了零宽度断言(?!exp),注意，我们有一个向前查找的语法(也叫顺序环视) (?=exp)(?=exp) 会查找exp之前的【位置】如果将等号换成感叹号，就变成了否定语义，也就是说查找的位置的后面不能是exp一般情况下?!...

参与评论您还未登录，请先登录后发表或查看评论

java正则表达式过滤特殊字符的正则表达式

12-13

java正则表达式过滤特殊字符的正则表达式

利用正则表达式去除字符串中的特殊字符

Allisonton的博客

09-14

1万+

利用正则表达式去除字符串中的特殊字符

正则表达式去掉字符串中的特殊字符

热门推荐

总结，交流，记录，成长

03-06

1万+

/*** 去掉字符串中的特殊字符 */ var excludeSpecial = function(s) { // 去掉转义字符 s = s.replace(/[’"\/\b\f\n\r\t]/g, ‘’); // 去掉特殊字符 s = s.replace(/[@#$%^&*{}:"\L<>? ]/); return s; }; function main(){ var s...

用Java正则去掉字符串中重复出现的字符

01-19

String str = “abcdeabcdeabcdeaaaaaadddddceeeeabcccccccacadaeec”;...=.*\1) 这是断言, 表示后面内容将是任意个字符加上第一组所捕获的内容这样子,如果这整个式子匹配到,表示,第一个捕获组内容在字符

javascript使用正则实现去掉字符串前面的所有0

12-08

本文将详细讲解如何使用正则表达式来去除字符串前面的所有零。首先，让我们深入理解给出的正则表达式："([0]*)([1-9]+[0-9]+)"。 1. `[0]*`：这部分代表零（0）出现零次或多次。星号（*）表示匹配前面的字符（0）...

JS使用正则去除字符串最后的逗号

10-27

在JavaScript中，去除字符串末尾的特定字符，特别是逗号，可以通过多种方式实现。这里我们将重点讨论使用正则表达式的方法，以及一些其他常见的字符串处理技术。 1. **正则表达式替换**：使用正则表达式是一种...

JS使用正则表达式除去字符串中重复字符的方法

10-23

主要介绍了JS使用正则表达式除去字符串中重复字符的方法,以一个简单实例分析了JavaScript中正则过滤的相关使用技巧,需要的朋友可以参考下

正则表达式去除特殊字符

05-28

2603

/** * 去除特殊字符。 * @param str * @return * @throws PatternSyntaxException */ public static String StringFilter(String str) throws PatternSyntaxException {

python正则表达式去除两个特殊字符间的内容方法

12-25

以去掉去掉<!–和–>为例进行说明： def clearContentWithSpecialCharacter(content): # 先将替换成，普通字符l content = content.replace("-->","l") # 分组标定，替换， pattern = re.compile(r'(l)(.*)(l)') # 如果想包括两个l，则用pattern.sub(r\1''\3,Content) return pattern.sub(r'',content

正则去掉特殊字符（前后端）

最新发布

Real666的博客

01-05

1955

正则去掉特殊字符（前后端）

正则表达式re去除或匹配特殊字符

m0_45085566的博客

04-27

8588

1、正则表达式re去除或匹配特殊字符 1.1re.sub去除特殊字符 re.sub(pattern, repl, string, count=0, flags=0) pattern：表示正则表达式中的模式字符串； repl：被替换的字符串（既可以是字符串，也可以是函数）； string：要被处理的，要被替换的字符串； count：匹配的次数, 默认是全部替换 import re # 1.修改中文...

正则表达式过滤特殊字符

sharionlee

06-13

2717

/** * 正则表达式过滤特殊字符 * @param str * @return * @throws PatternSyntaxException */ public static String StringFilter(String str) throws PatternSyntaxException{ // 只允许字母和数字

去除特殊字符正则校验

森海北屿 ღ

12-28

4900

最近项目中有涉及到不可输入特殊字符的校验，在使用正则匹配时发现一些问题，具体如下：使用的去除特殊字符的正则表达式为： // 英文校验规则 const regEn = /[`~!@#$%^&amp;*()_+-=&lt;&gt;?:"{},.\\/;'[\]]/im // 中文校验规则 const regCn = /[·！#￥（——）：；“”‘、，|《。》？、【】[\]]/im 运行结果发现这...

举例说明如何使用正则表达式去掉字符串中的一些特殊符号

Ada168855的专栏

06-17

3215

package com.my.algorithm; /**说明： * 本例是一个用正则表达式来去掉字符串的标点符号及一些特殊字符的程序 * */ public class Test{ static String s="今天是星-期，一？是~的？真的是星期一！12.`~-_+=3456"; public static void main(String args

正则表达式去掉字符串中的特殊符号

zhangli0421的博客

03-02

1098

[Scala]正则表达式——去除特殊字符，只保留中英文和数字以及下划线

weixin_42594269的博客

09-12

4036

今天在解析数据时，发现json中的一个字段nick_name(微信昵称)中存在表情符号。原始数据：这是一个很长的测试昵称~$!-_????0 插入数据库中报错当然这个问题的另外一种解决方式在其他地方会解释。在解决不了的前提下，只能去除数据中的特殊符号，因此用到正则表达式。代码如下： import scala.util.matching.Regex object RegexTest { def main(args: Array[String]): Unit = { //正