【python文件操作之利用os筛选出想要的数据集】
文章目录
前言
提示:本文主要应用于文件数据的筛选操作,主要用到的模块是Os:
相信有很多小伙伴在用python去处理数据的时候总会用到筛选数据的需求,本文就介绍了如何用python去筛选出txt文件中我们想要的数据!
提示:处理数据有很多种方法,这只是方法之一,也是我个人在应用的,而且极为简单!
一、OS模块是什么?
示例:OS模块 是基于Python 的一种工具,该工具是为了解决数据分析任务而创建的。
二、使用步骤
1.引入库
import os
2.读入数据
data_path = open('/home/sysman/lgw/1.txt','r') #首先读取文件路径,找到文件位置,读取方式为r,只读取不更改.
data = data_path.readlines() # 利用readlines去读取文件里面的内容(使用readlines读取出来的数据为list格式,详情可自查read,readline,readlines三种读取方式的作用)
3.观察数据,选择分割条件
如图所示,我们想要找到 ‘.jpg:’ 后面的数据,所以我们将以 ‘.jpg:’ 为我们的分割条件
for i in data: #需要筛选出的数据有很多条,故选择for循环
i=i.strip() #这一步是为了去除数据两边的空格,防止读取有误
a=i.split('.jpg:') #使用.split进行分割条件
file_data02=a[1] #得到一个新的变量,此时的file_data02就变成了'.jpg:'后面我们想要的数据
4.让每一条数据都能被筛选到
while True:
x=file_data02.find('[') #根据数据的样式选择条件为‘[’
y=file_data02.find(']') #根据数据的样式选择条件为‘]’
file_data03=file_data02[x:y+1] #基于file_data02找出我们要的数据
if y+1 == len(file_data02): #给予判断条件,否则会一直陷入循环
break
file_data02=file_data02[y+1:] #更新我们的寻找lebel,否则一行数据有多组数据我们只筛选到第一组(例如第2行的数据不止一组)
file_data02_list=file_data02.split()#这一步纯属为了让file_data02变成list格式,方便我们打印
print(file_data02)
5.全部代码展示
import os
data_path = open('/home/sysman/lgw/1.txt','r') #首先读取文件路径,找到文件位置
data = data_path.readlines() # 利用readlines去读取文件里面的内容(使用readlines读取出来的数据为list格式,详情可自查read,readline,readlines三种读取方式的作用)
for i in data: #需要筛选出的数据有很多条,故选择for循环
i=i.strip() #这一步是为了去除数据两边的空格,防止读取有误
a=i.split('.jpg:') #使用.split进行分割条件
file_data02=a[1] #得到一个新的变量,此时的file_data02就变成了'.jpg:'后面我们想要的数据
while True:
x=file_data02.find('[') #根据数据的样式选择条件为‘[’
y=file_data02.find(']') #根据数据的样式选择条件为‘]’
file_data03=file_data02[x:y+1] #基于file_data02找出我们要的数据
if y+1 == len(file_data02): #给予判断条件,否则会一直陷入循环
break
file_data02=file_data02[y+1:] #更新我们的寻找lebel,否则一行数据有多组数据我们只筛选到第一组
file_data02_list=file_data02.split()#这一步纯属为了让file_data02变成list格式,方便我们打印
print(file_data02)
6.打印结果
三、总结
提示:这里对文章进行总结.
以上就是今天要讲的内容,本文仅仅简单介绍了如何使用python中的os模块对于文件的操作,而os也提供了大量能使我们快速便捷地处理数据的函数和方法。