python只有英文版吗_Python处理一个段落，使其只有英文和数字,python,一段话,他,存在...

最新推荐文章于 2023-06-18 01:01:17 发布

weixin_36214932

最新推荐文章于 2023-06-18 01:01:17 发布

阅读量241

点赞数

文章标签： python只有英文版吗

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36214932/article/details/113509105

版权

前段时间跑了了一个自然语言的程序，主要是用来处理一段话，使他只有英文和数字。

我自己写了一个类，用来实现以下的功能

(1)去掉文字中的url

(2)去掉文字中所有的非英文的短语或者单词。

(3)去掉文字中所有的符号，如!,@#(&$*等

(4)去掉文字中的所有的\n \t \r

(5)把文字全部变成小写

(6)去掉文字中所有x00,x0z这样的特殊的符号，这里只能去掉x+数字着这样开头的文字

import re

#这个文件是专门处理str类型的文件，

#主要目的是去掉一段话里的非英文的内容，去掉url，去掉特殊字符如\n,\t,\r,x00这样的特殊字符

#还有就是去掉文字中的所有符号，

#把文字变成小写。

class process_str:

def get_english(self,dd):

st = ""

for k in dd.split():

if len(re.findall("[^a-zA-Z\d.]", k)) == 0:

st = st + " " + k

return st

def process_data(self,data) -> str:

# 去掉url

data_first = re.sub(r'(https|http)?:\/\/(\w|\.|\/|\?|\=|\&|\%|-)*\b', '', data, flags=re.MULTILINE)

# 去掉所有的符号，把大写改为小写。

data_second = data_first.replace(r"\n", " ").replace("?", ' ') \

.replace("/", ' ').replace(",", ' ').replace("\\", ' '). \

replace("~", ' ').replace("+", ' ').replace("=", ' ') \

.replace("!", ' ').lower().replace("#", ' ').replace("@", ' ').replace(r"""""", '') \

.replace("$", ' ').replace("%", ' ').replace("(", ' ').replace(r"\r", ' ') \

.replace(")", ' ').replace("-", ' ').replace("_", '').replace(":", ' ') \

.replace(";", ' ').replace("'", ' ').replace("{", ' ').replace("}", ' ') \

.replace("[", ' ').replace("]", ' ').replace("|", ' ').replace("*", ' ') \

.replace(">", ' ').replace("

.replace(r"\t", ' ')

# 去掉x0z这类的东西

data_three = re.sub(r'x[0-9][a-zA-Z.\d]*', '', data_second, flags=re.MULTILINE)

# 去掉非英文和数字的部分

data_four = self.get_english(data_three).replace(".", " ")

return data_four

代码的py文件我放在了我的github上

process_str.py

中

weixin_36214932

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。