(方法总结)Python 从字符串中快速提取中文---三大法

最新推荐文章于 2023-08-22 17:28:54 发布

Nick Peng

最新推荐文章于 2023-08-22 17:28:54 发布

阅读量1.8w

点赞数 15

分类专栏： Python 文章标签：提取中文三大法

本文链接：https://blog.csdn.net/PY0312/article/details/93999895

版权

Python 专栏收录该内容

109 篇文章 82 订阅

订阅专栏

已知字符串 a_str = '404 not found 张三 23 深圳', 每个词中间都是空格, 要求只输出字符串中的中文?

方法一:

使用正则表达式: \w+, re.A即指ASCII编码, 可匹配除中文以外的单词字符, 得到新列表
利用去同存异的方法

a_str = '404 not found 张三 23 深圳'

import re

a_list = a_str.split(" ")   # ['404', 'not', 'found', '张三', '23', '深圳']

res = re.findall(r'\w+', a_str, re.A)   # ['404', 'not', 'found', '23']

new_list = []
for i in a_list:
    if i not in res:
        new_list.append(i)

print(" ".join(new_list))

# 输出结果
张三 深圳

方法二:

正则表达式: [\u4e00-\u9fa5], 只匹配汉字
依据汉字的Unicode码表: 从u4e00~u9fa5, 即代表了符合汉字GB18030规范的字符集

import re

a_str = '404 not found 张三 23 深圳'

a_list = re.findall(r'[\u4e00-\u9fa5]', a_str)

print(a_list)

# 输出结果
['张', '三', '深', '圳']

方法三:

正则表达式: [^\x00-\xff], 只匹配非ASCII码字符(也称双字节字符), 利用汉字为: 双字节字符的原理

import re

a_str = '404 not found 张三 23 深圳'

a_list = re.findall(r'[^\x00-\xff]', a_str)

print(a_list)

# 输出结果
['张', '三', '深', '圳']

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Nick Peng

关注关注

15
点赞
踩
56

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

[Python从零到壹] 十三.机器学习之聚类算法四万字总结全网首发（K-Means、BIRCH、树状聚类、MeanShift）

杨秀璋的专栏

07-06

1万+

欢迎大家来到“Python从零到壹”，在这里我将分享约200篇Python系列文章，带大家一起去学习和玩耍，看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解，真心想把自己近十年的编程经验分享给大家，希望对您有所帮助，文章中不足之处也请海涵。Python系列整体框架包括基础语法10篇、网络爬虫30篇、可视化分析10篇、机器学习20篇、大数据分析20篇、图像识别30篇、人工智能40篇、Python安全20篇、其他技巧10篇。您的关注、点赞和转发就是对秀璋最大的支持，知识无价人有情，希望

python从字符串中提取数字并转换为相应数据类型_Python基础语法（赋值、数据运算、数据类型转换、字符串各种操作）...

weixin_35526110的博客

01-29

1505

Python基础第二节链式赋值、系列解包赋值、常量链式赋值：x=y=123 相当于x=123;y=123系列解包赋值：a,b,c=4,5,6 相当于a=4;b=5;c=6用系列解包赋值实现变量值互换：a,b=b,aPython不支持定义常量。内置数据类型和基本算术运算符变量类型：整型、浮点型、布尔型、字符串型基本算术运算符：+、-、*、/(浮点数除法)，//(整数除法)、%(取余)、**(幂)di...

参与评论您还未登录，请先登录后发表或查看评论

python 提取字符串中的中文字符

luoganttcc的博客

09-14

5525

仅仅提取汉字字符 p1='帮会建了徽信群没在群里的加下徽信:[30109552300]，晚上群里有活动通知大家，(抢资源)，争地盘，谢谢配合。i love you ' pre = re.compile(u'[\u4e00-\u9fa5]') res = re.findall(pre, p1) res1=''.join(res) print(res1) '帮会建了徽信群没在群里的加下徽信晚上群里...

用python提取字符串的中英文——建议收藏反复观看

热门推荐

JarvisChu的专栏

05-22

2万+

下面函数是从我在写的一个python自动获取天气的程序中截取的。该函数将从中文字符串“浙江省杭州市”中，截取出"杭州" 首先将字符串编码为gbk，使用unicode(str,code)，将code型编码的 str字符串转换成unicode 然后判断字符串中是否含有"省"和"市"字，如果有就截取掉；这里注意使用 u“省” 最后返回截取的字符串 def co

python字符串提取汉字_python怎么提取字符串的字符,

weixin_34091081的博客

12-28

1647

详细内容字符串截取，也叫字符串切片，使用方括号[ ]来截取字符串，在Python中单字符也是作为一个字符串使用。字符串[开始索引：结束索引：步长]开始索引：从指定位置开始截取；结束索引：从指定位置结束截取，但不包含该位置的字符。步长：不指定时步长为1；字符串[开始索引：结束索引]首先我们了解下字符串的索引，Python中字符串有两种索引方式，如下图：正索引代表从前往后索引，默认从0开始；负索引代表...

python中文截取

yl0706401049的专栏

03-25

842

username是已经进过utf-8编码之后的参数 u = unicode(username,"utf-8") u = u[:4]+"*" u.encode('utf-8') 转成unicode之后,中文就是一个字节了,字母与汉字都是4个字节

python3正则提取字符串里的中文实例

09-19

今天小编就为大家分享一篇python3正则提取字符串里的中文实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

python从字符串中提取数字并转换为相应数据类型_python数据类型的强制转换

weixin_28910825的博客

01-29

2011

数据类型的强制转换如果要将一个数据转换成另一个数据类型，只需要将其放入相应类型的函数中去。Number类型的数据转换强制转换为int可以转换的数据类型int 整型float 浮点型bool 布尔型str 字符串(整型)数据转换# 整型(整型转换是原封不动的)print(int(10))# 浮点型(浮点型转成整型按照退一法)print(int(10.999))# 布尔型(布尔型只有两种值，转换成为整...

Python全套课程笔记-chap1-python入门与字符串

01-02

### Python全套课程笔记-chap1-python入门与字符串 #### Python基础知识概述 - **开发者**: Python由Guido van Rossum（通常被亲切地称为龟叔）于1989年底发明，首次发布是在1991年。 - **应用场景**: - 运维自动...

Python实现简单截取中文字符串的方法

09-21

主要介绍了Python实现简单截取中文字符串的方法,涉及Python字符串截取与编码转换的相关技巧,需要的朋友可以参考下

Python中文字符串截取问题

09-21

web应用难免会截取字符串的需求,Python中截取英文很容易，但是截取utf-8的中文机会截取一半导致一些不是乱码的乱码.其实utf8截取很简单,这里记下来分享给大家

02-python-入门-数据类型-数字变量-字符串-索引和分片

02-08

“02.04-python字符串.ipynb”则专门针对字符串的处理。字符串的索引和分片是其重要的操作。在Python中，索引是从0开始的，可以正向或反向访问字符串的每个字符。分片允许我们提取字符串的一部分，通过开始索引、...

python中文截断

ghevinn欢迎您光临

07-28

1502

str = '中国人' str.decode（'utf-8')[0:1].encode('utf-8') 先转换成unicode，再取子串，然后转换成utf-8

Python从字符串中提取中文字符

云淡风轻ing的博客

12-20

4245

#coding:utf-8 import re #re是正则表达式模块 def main(): str = input("请输入字符串：") chinese = re.findall('[\u4e00-\u9fa5]', str) # 汉字的范围为"\u4e00-\u9fa5" print(chinese) if __name__ == '__main__': main()

python提取中文字符_Python提取中文字符

weixin_42310572的博客

01-14

1296

写这个jupyter的原因是好几次自己爬完新闻之后，发现中间有些是html标签代码或者其他多余的英文字符，自己也不想保留，那么这时候一个暴力简单的方法就是使用 unicode 范围 \u4e00 - \u9fff 来判别汉字unicode 分配给汉字(中日韩越统一表意文字)的范围为 4E00-9FFF(目前 unicode 6.3 的标准已定义到 9FCC )# 判断字符是否全是中文def ish...

python截取中文字符串

架构和代码

12-05

2万+

python的中文处理还是比较麻烦的，utf-8的字符串的长度是1-6个字符，一不小心就会从中截断，出现所谓的乱码。下面这个函数提供了，从一段utf-8编码的字符串中，截取固定长度的字串。ord(char)将字符转换称整数，根据utf-8的编码规则，确定每个utf-8的字占用几个字符，从而避免截断的情况。参数： string ：utf-8字符串，如果是别的字符编码，请先转换成utf-8（推荐所

python 中文字符串截取,Python实现针对含中文字符串的截取功能示例

weixin_35436076的博客

03-25

1008

本文实例讲述了Python实现针对含中文字符串的截取功能。分享给大家供大家参考，具体如下：对于含多字节的字符串，进行截断的时候，要判断截断处是几字节字符，不能将多字节从中分割，避免截断后乱码下面给出utf8和gb18030上的实现，用任何一种都可以，可以先进行转码，用encode, decode;方法1：对utf8:def subString(string,length):if length &...