python移除文本中英文，数字和字符

最新推荐文章于 2024-04-09 17:41:07 发布

原创最新推荐文章于 2024-04-09 17:41:07 发布 · 4.1k 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#python

本文介绍了一种在中文自然语言处理任务中去除英文、数字及特殊字符的方法，使用Python的正则表达式库re实现文本清洗，显著减少了文本数据量。

在中文的自然语言处理，英文、数字和字符是无法在词典中对比成功的，所以需要消除掉。

方法如下：

首先引入re库：

import re

然后使用sub()函数先消除字母和数字

re.sub('[a-zA-Z0-9]','',data)
#第一个参数是搜索a-z，A-Z，0-9
#第二个参数是''用于替换第一个参数
#第三个参数是读取到的文本

接着在消除字符

re.sub('\W','',data)
#用去替换特殊字符，即非字母、非数字、非汉字、非_

处理前文本长度660331

处理过后文本长度334183

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

雾夜羽

关注关注

4
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

python使用正则表达式去除中文文本多余空格，保留英文之间空格方法详解

10-15

主要介绍了python使用正则表达式去除中文文本多余空格，保留英文之间空格方法详解,需要的朋友可以参考下

python去掉字符串中的特殊字符和数字

猿小白的博客

07-03

3638

举个例子：这个例子比较简单，但是你运行之后，会发现会报错：异常错误解决办法：这是因为content不是一个字符串，需要将content转换成字符串类型或者将content定义成字符串类型。程序运行结果：...

参与评论您还未登录，请先登录后发表或查看评论

python3（9）---去掉字符串中的英文字符和数字

热门推荐

qq_36098284的博客

04-06

3万+

方法一：使用punctuation。 punctuation其中定义的是所以英文的标点符号。 add_punc相当于是自定义的，如果只要去掉英文，那么if判断的地方，只保留add_punc即可，如果英文的标点符号也想去掉，就使用punctuation 比如，要去掉数字：add_punc=‘0123456789’ 即可。字母也同理。代码： from string import pu...

python把txt大小写英文字母等删掉

qq_45040135的博客

02-27

565

python删除txt字母、字符等

Python删除文件中的中文及中文符号

gaoyuelong的博客

11-12

1711

python删除中文及中文符号

python 去掉中文或英文

nie303671298的博客

08-21

3138

def find_chinese(file): pattern = re.compile(r'[^\u4e00-\u9fa5]') chinese = re.sub(pattern, '', file) print(chinese) def find_english(file): pattern = re.compile(r'[\u4e00-\u9fa5]') english = re.sub(pattern, '', file) prin...

python 移除字符串尾部的数字方法

09-20

例如`string.hexdigits`（包含所有十六进制数字字符）、`string.octdigits`（包含所有八进制数字字符）、`string.letters`（包含所有大小写英文字母）、`string.lowercase`（包含所有小写英文字母）、`string....

python实现将英文单词表示的数字转换成阿拉伯数字的方法

09-21

本方法通过定义一个映射表 `_known` 来存储基本的英文数字及其对应的阿拉伯数字，并通过一系列字符串处理技术（包括正则表达式和列表推导）来实现从英文数字到阿拉伯数字的有效转换。此方法适用于多种应用场景，特别...

Python移除指定文件夹中所有文件名称中的特殊字符（数字、特殊字符、空格等）、只保留字母字符

data+scenario+science+insight

08-11

1449

Python移除指定文件夹中所有文件名称中的特殊字符（数字、特殊字符、空格等）、只保留字母字符

python 表达式去除制定以外的字符和特殊符号其他都去掉

全网120W+关注AI拉呱，专注人工智能以及科技前沿！

04-09

404

作用：正则表达式需要保留的数字、字母、以及部分特殊符号（\ / + - = :）其他以外的都去掉。

python删除某个字符

01-20

使用python去除文中的某个字符是非常麻烦的一件事，不同的环境可以用到多种方法，例如正则表达式，del语法，现在发布的是一个比较简单易行的方法，就是遇到该字符便跳过去，不对其进行操作，完美呈现出删除该字符的功能。测试文本 jb51.txt //www.jb51.net/article/1.htm python代码 # -*- coding: utf-8 -*- def delblankline(infile, outfile): infopen = open(infile, 'r',encoding=utf-8)#打开本体文件 outfopen = open(outfil

python 字符串去除中文

luoganttcc的博客

09-14

1万+

去除中文 #去除中文 import re p1='帮会建了徽信群没在群里的加下徽信:[30109552300]，晚上群里有活动通知大家，(抢资源)，争地盘，谢谢配合。i love you ' linee=re.sub('[\u4e00-\u9fa5]', '', p1) print(linee) :[30109552300]，，()，，。i love you 去除标点 simple_...

python删除字符串的英文数字和括号

欢迎你们到来，希望能帮到大家

04-04

661

python去除字符串的英文数字和括号

python特殊符号_一行Python代码过滤标点符号等特殊字符

weixin_39816024的博客

11-28

509

很多时候我们需要过滤掉标点符号等特殊字符，网上虽然有一堆的方法，但是都没有找到一个非常满意的，有些过滤不了中文的标点符号，有些过滤不了英文的标点符号，有些过滤不全。最后通过查看正则表达式文档，发现一个高效的办法，一行代码就能搞定：def replace_all_blank(value):"""去除value中的所有非字母内容，包括标点符号、空格、换行、下划线等:param value: 需要处理的...

（Python）基础：去除字符串中的数字空格、现有一段英文，将 I 误写为 i ，请纠正

m0_66221226的博客

10-30

662

字符串

python去除句子中所有数字

ASS-ASH的博客

10-14

860

s='你是123我是456' ss = ''.join([i for i in s if not i.isdigit()]) print(ss) 输出：你是我是

Python 删除字符

IAlexanderI的专栏

05-12

1489

Python: 去掉字符串中的非数字(或非字母)字符 >>> crazystring = ‘dade142.;!0142f[.,]ad’ 只保留数字 >>> filter(str.isdigit, crazystring) ‘1420142′ 只保留字母 >>> filter(str.isalpha, crazystring) ‘dadefad’ 只保留字母和数

python txt文件去除数字字母只保留中文

weixin_33595571的博客

11-02

1104

【代码】python txt文件去除数字字母只保留中文。

python简单过滤字母和数字的方法小结

南洲.的博客

10-29

3009

本文实例讲述了Python简单过滤字母和数字的方法，具体如下：实例1： crazystring = ‘dade142.!0142f[., ]ad’ #只保留数字 new_crazy = filter(str.isdigit, crazystring) print(''.join(list(new_crazy))) #输出：1420142 #只保留字母 new_crazy = filter(st...

python字符串中的数字如何算和