Python-提取文件中所有中文小程序

最新推荐文章于 2022-08-01 14:59:15 发布

weixin_30732487

最新推荐文章于 2022-08-01 14:59:15 发布

阅读量68

点赞数

文章标签： python

原文链接：http://www.cnblogs.com/xinzaitian/archive/2010/11/30/1892208.html

版权

问题描述：

　　　从一个txt文件中提取所有中文

思路：

打开txt文件
读取txt文件中的文本
用正则匹配获取中文
将其内容写入到另一个文本中

python实现：

代码

# coding=utf-8
import imp
import sys
imp.reload(sys)
sys.setdefaultencoding( ' utf-8 ' ) # 设置默认编码,只能是utf-8,下面\u4e00-\u9fa5要求的
import re
pchinese = re.compile( ' ([\u4e00-\u9fa5]+)+? ' ) # 判断是否为中文的正则表达式
f = open( " data.txt " ) # 打开要提取的文件
fw = open( " getdata.txt " , " w " ) # 打开要写入的文件
for line in f.readlines(): # 循环读取要读取文件的每一行
m = pchinese.findall(str(line)) # 使用正则表达获取中文
if m:
str1 = ' | ' .join(m) # 同行的中文用竖杠区分
str2 = str(str1)
fw.write(str2) # 写入文件
fw.write( " \n " ) # 不同行的要换行
f.close()
fw.close() # 打开的文件记得关闭哦!

要点:

文件的读写 open(filename,type),file.close()
正则表达式使用

re 模块是正则表达式的Python实现。它有一个漂亮的函数findall()，接受一个正则表达式和一个字符串作为参数，然后找出字符串中出现该模式的所有地方。在这个例子里，模式匹配的是数字序列。findall()函数返回所有匹配该模式的子字符串的列表。
字符串拼接 '|'.join(strabc),在strabc字符串后面添加|。

转载于:https://www.cnblogs.com/xinzaitian/archive/2010/11/30/1892208.html

weixin_30732487

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。