使用python提取中文数字和英文

最新推荐文章于 2023-06-05 23:40:09 发布

飞虹舞毓

最新推荐文章于 2023-06-05 23:40:09 发布

阅读量1.5w

点赞数 7

分类专栏： Python 文章标签： python 提取中文

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/supinyu/article/details/80926167

版权

Python 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

因为训练word2vec模型，需要处理数据集发现其中有很多特殊符号，所以使用 $python3$ 进行了数据预处理，去除了预料中的特殊符号，这里使用unicode加正则表示式来进行相关的匹配。

import re
string = "12345464我不是药神123456abcdefgABCVDFF？/ ，。,.:;:''';'''[]{}()（）《》"
print(string)
12345464我不是药神123456abcdefgABCVDFF？/ ，。,.:;:''';'''[]{}()（）《》
sub_str = re.sub(u"([^\u4e00-\u9fa5\u0030-\u0039\u0041-\u005a\u0061-\u007a])","",string)
print(sub_str)
12345464我不是药神123456abcdefgABCVDFF

正则表达式的使用

函数	说明
sub(pattern,repl,string)	把字符串中的所有匹配表达式pattern中的地方替换成repl
[^**]	表示不匹配此字符集中的任何一个字符
\u4e00-\u9fa5	汉字的unicode范围
\u0030-\u0039	数字的unicode范围
\u0041-\u005a	大写字母unicode范围
\u0061-\u007a	小写字母unicode范围

关注

7
点赞
踩
27

收藏

觉得还不错? 一键收藏
1
评论
使用python提取中文数字和英文

因为训练word2vec模型，需要处理数据集发现其中有很多特殊符号，所以使用python3python3python3进行了数据预处理，去除了预料中的特殊符号，这里使用unicode加正则表示式来进行相关的匹配。import restring = "12345464我不是药神123456abcdefgABCVDFF？/ ，。,.:;:''';'''[]{}()（）《》"print(stri...
复制链接

扫一扫

专栏目录

飞虹舞毓 CSDN认证博客专家 CSDN认证企业博客

码龄13年

48: 原创

14万+: 周排名

66万+: 总排名

9万+: 访问

: 等级

1421: 积分

17: 粉丝

18: 获赞

17: 评论

73: 收藏

私信

关注

热门文章

分类专栏

机器学习 5篇
刷题 1篇
LeetCode 5篇
概率统计 4篇
Python 6篇
项目 3篇
数据结构 5篇
PAT(basic level)
Hadoop 1篇
Spark 1篇
面试 2篇
软件安装 5篇
Linux 5篇
Tensorflow 2篇
论文 3篇
自然语言处理 1篇
Pytorch 1篇

最新评论

FastText文本分类以及生成词向量
长安山南君: 你好，在【3、生成词向量】中使用FastText在以独字+空格分割的句子训练词向量。问题： 1、你这训练的词向量应该是“字”的词向量吧？ 2、neighborsWords = model.get_nearest_neighbors('篮球') 的结果应该是“字”而不是“词语”吧？
非root用户安装CMake
weixin_45622046: 请问博主，./bootstrap这一步报错是为什么呀
使用python提取中文数字和英文
沙志远: 真赞，学到了。
非root用户安装CUDA和CuDNN
飞虹舞毓回复 qq1321985517: 这个应该是，你在执行程序的时候，设置一下环境变量，把你自己安装的路径，放到启动脚本的环境变量里面
非root用户安装CUDA和CuDNN
qq1321985517: 我的情况是：服务器预装了一个版本的cuda和cudnn，我在自己的路径下安装了另一个版本的；最终运行代码似乎还是寻找的服务器预装的版本，不知道该怎么修改，才能找到我自己装的版本...

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。