python处理文本文件删除不要字符,Python从文件中读取并删除非ascii字符

最新推荐文章于 2021-07-23 17:22:24 发布

weixin_39912984

最新推荐文章于 2021-07-23 17:22:24 发布

阅读量202

点赞数

文章标签： python处理文本文件删除不要字符

I have the following program that reads a file word by word and writes the word again to another file but without the non-ascii characters from the first file.

import unicodedata

import codecs

infile = codecs.open('d.txt','r',encoding='utf-8',errors='ignore')

outfile = codecs.open('d_parsed.txt','w',encoding='utf-8',errors='ignore')

for line in infile.readlines():

for word in line.split():

outfile.write(word+" ")

outfile.write("\n")

infile.close()

outfile.close()

The only problem that I am facing is that with this code it does not print a new line to the second file (d_parsed). Any clues??

解决方案

codecs.open() doesn't support universal newlines e.g., it doesn't translate \r\n to \n while reading on Windows.

Use io.open() instead:

#!/usr/bin/env python

from __future__ import print_function

import io

with io.open('d.txt','r',encoding='utf-8',errors='ignore') as infile, \

io.open('d_parsed.txt','w',encoding='ascii',errors='ignore') as outfile:

for line in infile:

print(*line.split(), file=outfile)

btw, if you want to remove non-ascii characters, you should use ascii instead of utf-8.

If the input encoding is compatible with ascii (such as utf-8) then you could open the file in binary mode and use bytes.translate() to remove non-ascii characters:

#!/usr/bin/env python

nonascii = bytearray(range(0x80, 0x100))

with open('d.txt','rb') as infile, open('d_parsed.txt','wb') as outfile:

for line in infile: # b'\n'-separated lines (Linux, OSX, Windows)

outfile.write(line.translate(None, nonascii))

It doesn't normalize whitespace like the first code example.

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39912984

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python删除所有的中文字符、非ASCII或非英文字符，检查字符串是否包含非ASCII

dielucui7698的博客

03-25

1680

Your''.join()expression isfiltering, removing anything non-ASCII; you could use a conditional expression instead: return ''.join([i if ord(i) < 128 else ' ' for i in text]) This handles c...

python处理文本文件 删除不要字符_Python从文件中读取并删除非ascii字符

weixin_39614060的博客

11-28

339

I have the following program that reads a file word by word and writes the word again to another file but without the non-ascii characters from the first file.import unicodedataimport codecsinfile = c...

参与评论您还未登录，请先登录后发表或查看评论

python去除字符串左边指定子字符串

单林敏的博客

07-23

483

# ex: smb2_op_query_directory处理成为query_directory # 把前缀替换掉1次 str_smb2_opcode[index].replace('smb2_op_', '', 1)

python文本编辑-------读取文本，去除不符合要求字符后保存至新文件

guoshaotong的博客

12-21

2542

现在有这样一个任务：我们有一个文本，内容如下： ws0012cs3d4 这，里。3是.一!?些a文 Z本… 文本里面有中英文标点符号，英文字符，数字，字母，中文，空格等等，现在我们需要把这些文本按行读取，前面的标号（ws0012cs3d4 ）保持不变，后面文本过滤成仅包含中文文本的数据，然后把标号和文本重新拼起来，保存在新的文件中。代码如下： # -*- coding: utf-8 -*- '...

python读取txt文件（strip()字符串删除，split() 切片）

BJ1599449的博客

05-24

4459

python读取txt文件（strip()字符串删除，split()切片）一、背景 1.读取txt文件时会存在换行 2.数据解析时，多参数时，此时经常会写入txt文件中，之后再进行数据的处理 3.常使用字符串的处理， strip()字符串删除的操作 split()通过指定分隔符对字符串进行切片二、读取txt文件，最终输出为列表： [['123456', '123455'], ['1121121', '33333'], ['4444444', '55555']] 应用：...

Python处理文本文件中控制字符的方法

09-21

### Python处理文本文件中控制字符的方法在使用Python进行文本处理时，经常会遇到包含控制字符的文本文件。这些控制字符可能会导致程序出错或者显示异常，因此了解如何正确地处理这些字符至关重要。本文将详细介绍...

python读取txt文件中特定位置字符的方法

09-19

1. **编码问题**：在读取和写入文件时，应始终明确指定文件编码方式，特别是在处理非ASCII字符时。 2. **资源管理**：确保使用`with`语句来自动管理文件的打开和关闭，以防止资源泄漏。 3. **异常处理**：在处理...

浅析Python 字符编码与文件处理

09-24

Python字符编码是编程中至关重要的一个方面，尤其是在处理文本数据时。在Python 2和Python 3中，字符编码有着显著的区别。Python 2默认使用ASCII编码，这可能导致处理非ASCII字符时出现乱码问题。而Python 3则将...

python写入中英文字符串到文件的方法

09-22

特别是当涉及到国际化应用时，能够正确地处理并写入包含中英文混合的字符串尤为重要。本文将详细介绍如何使用Python来写入包含中文的字符串到文件，并通过一个具体的示例来演示整个过程。 #### 一、基本概念在...

python批量删除特定字符_python入门第十四课：批量清除文件中的干扰字符

weixin_31847579的博客

12-29

451

本教程使用的课本是《Python编程：从入门到实践》，作者：[美] Eric Matthes相信很多人有批量处理文本内容的需求，比如从网上下载了很多文本文件，但里面有些文字需要去除，用Python的OS类可以轻松实现。比如在一个tmp目录中有三个文本文件，但文件的内容有一些“干扰字符”，我们要批量将这些字符去除，见下面截图。清除干扰字符的思路是这样的：1、一次只打开一个文件2、一次性读取这个文件内...

Python_删除TXT文件中不想要的内容

欢迎大家关注我

07-20

8472

直接上代码（我们这个代码是将新的文件复制出来，不会修改原文件）： file = open("../../..TXT文本路径", "r") # 以只读模式读取文件 lines = [] for i in file: lines.append(i) #逐行将文本存入列表lines中 file.close() new = [] for line in lines: # 逐行遍历 p = 0 #定义计数指针 for bit in line: # 对每行进行逐个字遍历 if bit == " 0 ": #

Python 3.x | 史上最详解的导入（import）

热门推荐

神是念着倒

07-27

25万+

win10+Python 3.6.3 一、理解一些基本概念 1、包、模块模块 module：一般情况下，是一个以.py为后缀的文件。其他可作为module的文件类型还有”.pyo”、”.pyc”、”.pyd”、”.so”、”.dll”，但Python初学者几乎用不到。 module 可看作一个工具类，可共用或者隐藏代码细节，将相关代码放置在一个module以便让代码更好用、易懂，让cod...

删除非字母字符python_如何删除一些非英文字母的字符串?

weixin_39621860的博客

12-20

1264

我对regex很陌生,python。例如,我的字符串列表是:my_try = ['Aas','1Aasdf','cc)','ASD','.ASD','aaaa1','A']现在,我想删除所有非英文字母的字符串。所以,我只想保持:['Aas','ASD','A']我不知道怎么用^或别的什么来做这个?有人能帮我吗?如果我的数据是:my_try=pd.DataFrame({'try':['Aas','1...

python 字符串替换ASCII码中的特殊字符

liangyuna8787的博客

12-24

1482

背景知识 1、python的字符串不能直接用索引的方式进行替换，比如 stringA='asdfghj' stringA[2]='1' 会提示语法错误 2、python常规可以通过字符串拼接、或者replace替换的方式组成新的字符串，比如 stringA='asdfghj' stringB=stringA[0:2]+'@'+stringA[4:6] 或者 stringB=stringA.replace('f','@') 特殊字符替换网络爬虫爬取的内容通常都会遇到特殊字符的问题，..

python读取excel文件的单元格内容，去掉内容前个text

qq_41566042的博客

02-09

3441

打印的内容前有个text 对应的代码为：这个表示的是它内容的属性，加入你print的这个对象叫cell_a 解决方法：可直接取中间的元素，cell_a.value就可以了。。结果呈现 ...

python统计单词个数算法_统计一篇英文文章单词个数，取出出现频次前10的单词（Python实现）...

weixin_39876739的博客

12-04

1160

题目：用python实现统计一篇英文文章内每个单词的出现频率，并返回出现频率最高的前10个单词及其出现次数。常规解法怎么判定单词?1 不是字母的特殊字符作为分隔符分割字符串 (避免特殊字符的处理不便，全部替换成””)2 正则分割3 遍历字符串，取每个word4 正则匹配怎么统计个数？将wordlist的word和word的个数放入dict，排序import rewith open('1.txt'...

python创建变量revenue_Python：使用pandas从CSV文件中删除非ascii字符

weixin_32324637的博客

01-29

385

我有一个utf-8编码的文本短信的csv文件.import pandas as pddata = pd.read_csv('my_data.csv', sep=',')data.head()它的输出如下：id city department sms category01 khi revenue quk respns....

正则表达式去除所有非ASCII字符

weixin_34292959的博客

07-16

2120

需求：去除字符串中包含的所有外国字符只能使用正则如下，找到包含非ASCII的记录 db=# select * from test where info ~ '[^(\x00-\x7f)]'; id | info ----+-------------- 1 | digoal 德哥 1 | 德哥 (2 rows) ...

python 去除字符串中各种非字母，非数字符号，把字符串用做文件名

七爷OK

09-02

1万+

有一行字符串： void future::work::related<exist::fluid<std::int, std::float>>(std::float=1) 改成： void_future__work__related_exist__fluid_std__int__std__float___std__float_1_ 我们想去掉其中的非字母，非数字的...

Python编程：XML文件处理与字符编码转换

这个过程中可能会出现编码错误，特别是在处理非ASCII字符时。 XML文件是另一种常见的数据交换格式，它通常使用UTF-8编码，因为UTF-8的广泛接受性和对Unicode的支持。在Python中，我们可以使用内置的`xml.etree....

python处理文本文件 删除不要字符,Python从文件中读取并删除非ascii字符

python处理文本文件删除不要字符,Python从文件中读取并删除非ascii字符