大数据处理正则表达式去除特殊字符提取中文英文数字

EA开发-青衫码客

已于 2023-08-23 11:22:17 修改

阅读量921

点赞数

文章标签：正则表达式

于 2023-08-23 10:53:53 首次发布

本文链接：https://blog.csdn.net/godofnight/article/details/132447465

版权

在文本处理中，经常会碰到含有特殊字符的字符串。
比如用户昵称，
小红书文案，等等都包含了大量表情特殊字符。
这些特殊字符串在ETL处理过程中，经常会引起程序报错，导致致命错误，程序崩溃；或者导致数据不准确。
所以ETL中首先要清洗处理掉这些特殊字符。

使用正则表达式能起到很好的效果

[a-zA-Z0-9\u4e00-\u9fa5]+

提取英文字符：[a-zA-Z]+

提取数字：[0-9]+

提取中文：[\u4e00-\u9fa5]+

(?!_)　　不能以_开头
 
(?!.*?_$)　　不能以_结尾

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

EA开发-青衫码客

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

利用正则表达式提取固定字符之间的字符串

10-20

本篇文章主要介绍如何利用正则表达式来提取固定字符之间的字符串，这对于数据处理和信息抽取非常有用。在JavaScript中，正则表达式的零宽断言分为前瞻断言（positive lookahead）和后瞻断言（positive lookbehind...

正则表达式 - 去掉乱码字符/提取字符串中的中文字符/提取字符串中的大小写字母 - Python代码

黄饱饱

04-28

9364

目录 1.乱码符号种类较少，用replace() 2.乱码字符种类较多，用re.sub() 3.提取字符串中的中文字符 4.提取字符串中的中文字符和数字 5.提取其他数据清洗的时候一大烦恼就是数据中总有各种乱码字符，比如！@#￥%……&——+*（）{}：“》《？|【】‘；/。，、-= 去掉这些很简单： 1.乱码符号种类较少，用replace() 如果只是很少类型的乱码符...

参与评论您还未登录，请先登录后发表或查看评论

MySQL：字符串中的数字、英文字符、汉字提取

AI数据工厂

08-14

1万+

在进行字符串处理时，常常需要提取其中某一类型的字符，有时候需要提取其中的数字，有时需要提取其中的英文字符，而有时候则需要提取其中的中文字符。这里利用正则匹配，实现了该功能。废话少说，直接上码： DELIMITER $$ DROP FUNCTION IF EXISTS `Num_char_extract`$$ CREATE FUNCTION `Num_char_extract`(Va...

案例一：去掉数据库某列中的所有英文，利用java正则表达式去做，核心：去掉字符串中的英文

冯安晨

03-11

409

文章目录前言一、问题描述二、解决方法1. 解决逻辑说明2. 利用java正则表达式去掉字符串中英文三、解决代码前言记录一下开发中的小问题一、问题描述数据库中的某一列有中英文，如下：要求删除FLAVOR_NAME这一列中的英文，如果只有几行就直接手冻了，但是有150行，再手动就太麻烦了，代码操作搞起二、解决方法 1. 解决逻辑说明先从数据库获取所有的ID和FLAVOR_NAME，为一个javabean 的listA集合。然后新建一个listB集合；对listA集合遍历，对每一个Javabe

正则表达式提取数字，汉字，英文

zhu_yao的博客

11-28

4680

/*提取中文、数字、英文/ @Test public void test (){ String str = “……^1dsf の adS DFASFSADF阿德斯防守对方asdfsadf37《？：？@%#￥%#￥%@#%#@%^><?1234”; String regEx="[a...

Java通过正则剔除乱码_正则表达式 - 去掉乱码字符/提取字符串中的中文字符/提取字符串中的大小写字母 - Python代码...

weixin_35238815的博客

02-28

1684

目录1.乱码符号种类较少，用replace()2.乱码字符种类较多，用re.sub()3.提取字符串中的中文字符4.提取字符串中的中文字符和数字5.提取其他数据清洗的时候一大烦恼就是数据中总有各种乱码字符，比如！@#￥%……&——+*(){}：“》《？|【】‘；/。，、-=去掉这些很简单：1.乱码符号种类较少，用replace()如果只是很少类型的乱码符号，可以使用replace来替换掉，...

正则表达式【去除字符前后的所有空格】学习

weixin_44943389的博客

07-24

1080

是NaN（不是一个数字）或者是一个空字符串（包含空格或空白字符），那么就会弹出一个警告框显示"不是数字"。本来就是一个空字符串或者只包含空格的字符串，经过处理后会变成空字符串，因此这个条件就会成立。是否不是一个数字(NaN)，或者是否是一个空字符串。这段代码是一个JavaScript代码片段，它用于检查变量。: 这个条件检查处理后的字符串是否为空字符串。字符串的开头和结尾的所有空格。的值是否为NaN（不是一个数字）。: 这是一个字符串方法调用，用于移除。会返回处理后的字符串，但并不改变变量。

JS正则表达式提取字符串中所有汉字的脚本

10-30

### JS正则表达式提取字符串中所有汉字的脚本 #### 概述在Web开发过程中，经常需要处理各种文本数据。例如，在某些场景下，我们可能需要从一段混合了HTML标记和其他非汉字字符的文本中仅提取出所有的汉字部分。...

易语言正则表达式分离汉字英文数字

07-22

在处理字符串时，易语言提供了正则表达式这一强大的工具，可以用来进行复杂的文本匹配和处理，包括分离汉字、英文和数字。 正则表达式（Regular Expression）是模式匹配的一种表示方式，能够有效地描述一组字符串的...

PostgreSQL 正则表达式 常用函数的总结

10-19

2. 字符串提取函数：这些函数允许从字符串中提取符合正则表达式模式的部分。 - `regexp_matches` 函数用于找出所有匹配的子串。 - `regexp_split_to_array` 和 `regexp_split_to_table` 函数可以将字符串分割成数...

使用正则表达式替换报表名称中的特殊字符(推荐)

10-21

在报表命名规范中，使用正则表达式去除特殊字符可以确保报表名称的合规性，避免因特殊字符引发的问题，如文件路径解析错误、SQL注入等安全问题。因此，理解和掌握正则表达式对于任何IT专业人员来说都是必备的技能之...

Mysql清除字段中的中文，只保留数字、字母等非中文符号

王世洪的博客

06-02

7307

原理：使用convert函数，将字段类型转换为其他数据类型即ASCII类型，然后再配合用replace函数，清除中文，即可达到效果（根据自身需要也可以用replace清除更多字符）。如下，是我在项目中的一个实际应用： SELECT distinct ResSpec as 原数据, convert(ResSpec using ascii) as 转换, replace(convert(ResSpec using ascii),"?","") as 结果 FROM gczj_gljk 效果图：

常会用到的正则

weixin_50658749的博客

05-10

548

正则去掉字符串里的字母

01. 利用正则表达式提取文章中的所有英文单词

程序员阿红的博客

11-23

5485

标题利用正则表达式提取文章中的所有英文单词 1.先创建一个Pattern对象，模式对象，可以理解成一个正则表达式对象 Pattern pattern = Pattern.compile("[a-zA-Z]+");//“+”:表示可以有一对多 Pattern pattern = Pattern.compile("[0-9]+");//“+”:表示可以有一对多 1997 2.创建一个匹配器对象 //理解：就是matcher 匹配器pattern(模式/样式)，到content文本中去匹配 //找到就返回tru

正则表达式判断密码是否包含大小写字母、数字、特殊字符的四种缺一不可，长度8到16 ——CSDN博客

大数据处理 正则表达式去除特殊字符 提取中文英文数字

大数据处理正则表达式去除特殊字符提取中文英文数字