【python文件操作之利用os筛选出想要的数据集】

lyyyyy_16

已于 2022-07-08 16:28:38 修改

阅读量1k

点赞数 1

分类专栏： Python 文章标签： python 开发语言数据结构

于 2022-07-06 16:42:32 首次发布

本文链接：https://blog.csdn.net/m0_62571112/article/details/125641721

版权

Python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

【python文件操作之利用os筛选出想要的数据集】

文章目录

- 【python文件操作之利用os筛选出想要的数据集】
前言
一、OS模块是什么？
二、使用步骤
三、总结

前言

提示：本文主要应用于文件数据的筛选操作，主要用到的模块是Os：

相信有很多小伙伴在用python去处理数据的时候总会用到筛选数据的需求，本文就介绍了如何用python去筛选出txt文件中我们想要的数据！

提示：处理数据有很多种方法，这只是方法之一，也是我个人在应用的，而且极为简单！

一、OS模块是什么？

示例：OS模块是基于Python 的一种工具，该工具是为了解决数据分析任务而创建的。

二、使用步骤

1.引入库

import os

2.读入数据

data_path = open('/home/sysman/lgw/1.txt','r')	#首先读取文件路径，找到文件位置，读取方式为r，只读取不更改.
data = data_path.readlines()  # 利用readlines去读取文件里面的内容（使用readlines读取出来的数据为list格式，详情可自查read，readline，readlines三种读取方式的作用）

3.观察数据，选择分割条件

在这里插入图片描述如图所示，我们想要找到 ‘.jpg:’ 后面的数据，所以我们将以 ‘.jpg:’ 为我们的分割条件

for i in data:		#需要筛选出的数据有很多条，故选择for循环
    i=i.strip()			#这一步是为了去除数据两边的空格，防止读取有误

    a=i.split('.jpg:')	#使用.split进行分割条件
    file_data02=a[1]	#得到一个新的变量，此时的file_data02就变成了'.jpg：'后面我们想要的数据

4.让每一条数据都能被筛选到

    while True:
        x=file_data02.find('[')				#根据数据的样式选择条件为‘[’
        y=file_data02.find(']')				#根据数据的样式选择条件为‘]’
        file_data03=file_data02[x:y+1]		#基于file_data02找出我们要的数据

        if y+1 == len(file_data02):			#给予判断条件，否则会一直陷入循环
            break
        file_data02=file_data02[y+1:]		#更新我们的寻找lebel，否则一行数据有多组数据我们只筛选到第一组（例如第2行的数据不止一组）
        file_data02_list=file_data02.split()#这一步纯属为了让file_data02变成list格式,方便我们打印
        print(file_data02)

5.全部代码展示

import os

data_path = open('/home/sysman/lgw/1.txt','r')	#首先读取文件路径，找到文件位置
data = data_path.readlines()  # 利用readlines去读取文件里面的内容（使用readlines读取出来的数据为list格式，详情可自查read，readline，readlines三种读取方式的作用）

for i in data:		#需要筛选出的数据有很多条，故选择for循环
    i=i.strip()			#这一步是为了去除数据两边的空格，防止读取有误

    a=i.split('.jpg:')	#使用.split进行分割条件
    file_data02=a[1]	#得到一个新的变量，此时的file_data02就变成了'.jpg：'后面我们想要的数据
    
    while True:
        x=file_data02.find('[')				#根据数据的样式选择条件为‘[’
        y=file_data02.find(']')				#根据数据的样式选择条件为‘]’
        file_data03=file_data02[x:y+1]		#基于file_data02找出我们要的数据

        if y+1 == len(file_data02):			#给予判断条件，否则会一直陷入循环
            break
        file_data02=file_data02[y+1:]		#更新我们的寻找lebel，否则一行数据有多组数据我们只筛选到第一组
        file_data02_list=file_data02.split()#这一步纯属为了让file_data02变成list格式,方便我们打印
        print(file_data02)