文件读入、抓取与清洗简单处理

每次遇到文本处理作为刚入坑的我都会感到有点头疼,毕竟还得创建其他文件,无法实时交互,各种不利于试验。
因此写出我遇到和用过的的文件处理方法
But因为文件不同也无法直接粘贴使用

文件读入

分行读入,分行处理

# 全文本操作使用read或readlines

# 逐行遍历
fname = input("请输入要打开的文件名称:")
fo = open(fname,"r")
for line in fo:
    ...
fo.close()

一次读入,分行处理

# 逐行遍历文件
fname = input("请输入要打开的文件名称:")
fo = open(fname,"r")
for line in fo.readlines():
#readline形成的是列表类型,列表的元素就是行
    ...
fo.close()

一次读入,全文处理

# 直接注入,一发入魂
fname = input("请输入要打开的文件名称:")
fo = open(fname,"r")
txt = fo.read()
...
fo.close()

分次读入,分次处理

# 分量注入
fname = input("请输入要打开的文件名称:")
fo = open(fname,"r")
txt = fo.read(2)
while txt != "":
#对txt进行处理
    txt = fo.read(2)# 也可以是\d+
    ...
fo.close()

文本操作

内容抓取&信息剔除

1.被抓取部分前后有固定的汉字、字符、字母等
如要求抓取原文内容而且无前后无空格,无空行,无数字注释论语
分析1:我们选取原文和注释之间的部分,原文 = 开,注释 = 关
处理1:利用一个数据参数a是否为0来判断是否写入,制造开关1
分析2:去掉换行符和前后空格比较简单,但空行需要判断
处理2:利用if line.strip():2+写入处理

>>> line = '     \t \n  if i were you i would learn python hardly \t'
>>> if line.strip():
		print(line)
     	 
  if i were you i would learn python hardly 	
>>> bool(line.strip())
True

分析3:需要剪去多余的(<数字>)
处理3:想当然的自以为用正则表达式好用
给出全部代码

import re
fi = open("论语.txt", 'r',encoding = 'utf-8')
fo = open("论语-提纯原文.txt", 'w')
a = 0
for line in fi:
# 制造开关
    if line.count("【原文】") != 0:
        a = 1
    if line.count("【注释】") != 0:
        a = 0
# 开始准备写入
    if a == 1 and line.count("【原文】") == 0 and line.count("【注释】") == 0:
        line = line.strip('\n')
        line = line.strip(' ')
        reg = re.findall(r'\(\d+\)',line)
        for i in reg:
            line=line.replace(i,'')
        if line.strip() is True:
            fo.write('{}\n'.format(line))
            # 写入比较简单,可以看成是print的另一种形式
fi.close()
fo.close()

文本交互添加&交互删除

要求:
完成学生通讯录管理,名单由文件 address.txt 给出,每行是一个学生的信息。示例如下:‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬
学号,姓名,电话号码,地址‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬
101,aa,12345678,Beijing‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬
102,bb,23456781,shanghai‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬

a.显示功能菜单,示例如下:‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬
显示所有信息
追加信息
删除信息
请输入数字1-3选择功能(要求:不允许浮点数输入。):‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬

接收用户输入数字选择功能,如果输入错误,要求用户重新输入。如果输入正确,在屏幕上显示提示语句:您选择了功能1/2/3.
b.函数操作实现以上三个功能
分析1:输入错误时允许不断继续输入数字
处理1:while循环+开关处理
分析2:追加信息,续写文件
处理2:可以使用两个文件,也可以使用r+处理
分析3:删除文件行,判断出这些信息中只有学号是独特的,因此以学号为关键
处理3:可以占用内存,进行新的覆盖写或者也可以滚动迭代覆盖写,这样的话速率较高,但代码码的比较多,自行判断需求
给出代码:

def display():
    fi = open("new_address.txt", 'r')
    for line in fi.readlines():
        print(line)
    fi.close()

def insertrec():
    fi = open("address.txt", 'r')
    fo = open("new_address.txt", 'w+')
    for line in fi.readlines():
        fo.write(line)
    new_info = input('请输入学生信息用逗号隔开:')
    fo.write(new_info)
    # 如果不要求打印到屏幕上,下面3行可以省略
    fo.seek(0)
    for nline in fo:
        print(nline)
    fi.close()
    fo.close()

def deleteinfo():
    wh = input('请输入需要删除的学号:')# 虽然这么说,但是如果输入的是姓名,也能删除,一个bug,先放到这,毕竟大概率不会有这么巧的事
    with open('new_address.txt','r') as r:
        lines = r.readlines()
    with open('new_address.txt','w') as w:
        for l in lines:
            if wh not in l:
                w.write(l)
    
def main():
    menu = ["1. 显示所有信息", "2. 追加信息", "3. 删除信息"]
    flag = 1# 一个开关
    for m in menu:
        print(m)
    try:
        ch = int(input("请输入数字1-3选择功能:"))
        if 1<=ch<=3:
            flag = 0
            print('您选择了功能',ch)
        else:
            flag = 1
            print('功能努力开发中,请重新选择')
    except:
        print('输入错误,请重新输入')
        flag = 1
        
    while flag == 1:
        
        ch = int(input("请输入数字1-3选择功能:"))
        if 1<=ch<=3:
            flag = 0
            print('您选择了功能',ch)
        else:
            flag = 1
            print('功能努力开发中,请重新选择')

    if ch == 1:
        display()
    elif ch == 2:
        insertrec()
    elif ch == 3:
        deleteinfo()
main()

to be continued


  1. 开关控制
    1,0作为开关很好地能实现loop重复循环,结合while往往有比较漂亮的效果 ↩︎

  2. 判断改行是否有值,若除了空格回车换行外还有字符,line.strip()是有值的,为真,可以写入,反之,如果换行\n回车\b Tab\t去掉,没有任何字符,是假,不操作,可以通过布尔表达式查看line.strip()的真假。 ↩︎

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值