测试开发实习日记(DAY4)

本文记录了实习期间如何将多个文件合并成一个文件,对数据进行去重,判断字符串特殊字符,以及全角转半角的操作。同时,介绍了爬取电影网站数据的初步步骤。
摘要由CSDN通过智能技术生成

现在公司这边需要一批电影的词库,一方面是一堆现有的文件中提取整合,另一方面需要自己去爬取。以下就以这两个方面来分别介绍一下。

1.1 如何将一个文件夹下的一堆文件整合成一个文件,把数据合并

这里需要用到os这个库,os.listdir(filepath)会返回该路径下所有文件的一个迭代器,然后再分别把这些文件用for循环打开,把里面的内容提取出来,用一个第三方的变量存储,最后所有的都读完之后,就把这个变量单独存成一个txt,这就是思路。

程序代码可以参考以下以下几行:

import os
filenames=os.listdir(datafile)
for filename in filenames:
    with open(datafile+filename, encoding='utf-8') as f:
        for line in f.readlines():
            prewordlist.append(line.replace("\n",""))

这个执行完之后,会得到一个prewordlist,这里面存储了所有文件中的词汇组成的列表。

1.2 如何对list进行去重

与list这种数据结构平行的还有一个set(集合),set的特点就是里面不存在重复的数据,可以直接使用set(list)将一个list转换为set,也可以将一个list(set)将一个set转换为list。 此外,set还可以进行求交集,并集和差集。

例如在这里,如果我们想对于prewordlist进行去重处理得到新的list,可以进行如下操作,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值