Python使用list字段模式或者dict字段模式读取文件的方法-CSDN博客

本文链接：https://blog.csdn.net/peishuai1987/article/details/89882908

Python用于处理文本数据绝对是个利器，极为简单的读取、分割、过滤、转换支持，使得开发者不需要考虑繁杂的流文件处理过程（相对于JAVA来说的，嘻嘻）。博主自己工作中，一些复杂的文本数据处理计算，包括在HADOOP上编写Streaming程序，均是用Python完成。

而在文本处理的过程中，将文件加载内存中是第一步，这就涉及到怎样将文件中的某一列映射到具体的变量的过程，最最愚笨的方法，就是按照字段的下标进行引用，比如这样子：

# fields是读取了一行，并且按照分隔符分割之后的列表 user_id = fields[0] user_name = fields[1] user_type = fields[2]

# fields是读取了一行，并且按照分隔符分割之后的列表

user_id = fields [ 0 ]

user_name = fields [ 1 ]

user_type = fields [ 2 ]

如果按照这种方式读取，一旦文件有顺序、增减列的变动，代码的维护是个噩梦，这种代码一定要杜绝。

本文推荐两种优雅的方式来读取数据，都是先配置字段模式，然后按照模式读取，而模式则有字典模式和列表模式两种形式；

读取文件，按照分隔符分割成字段数据列表

首先读取文件，按照分隔符分割每一行的数据，返回字段列表，以便后续处理。

代码如下：

def read_file_data(filepath): '''根据路径按行读取文件, 参数filepath：文件的绝对路径 @param filepath: 读取文件的路径 @return: 按\t分割后的每行的数据列表 ''' fin = open(filepath, 'r') for line in fin: try: line = line[:-1] if not line: continue except: continue try: fields = line.split("\t") except: continue # 抛出当前行的分割列表 yield fields fin.close()

def read_file_data ( filepath ) :

'' '根据路径按行读取文件, 参数filepath：文件的绝对路径

@param filepath: 读取文件的路径

@return: 按\t分割后的每行的数据列表

' ''

fin = open ( filepath , 'r' )

for line in fin :

try :

line = line [ : - 1 ]

if not line : continue

except :

continue

try :

fields = line . split ( "\t" )

except :

continue

# 抛出当前行的分割列表

yield fields

fin . close ( )

使用yield关键字，每次抛出单个行的分割数据，这样在调度程序中可以用for fields in read_file_data(fpath)的方式读取每一行。

映射到模型之方法1：使用配置好的字典模式，装配读取的数据列表

这种方法配置一个{“字段名”: 字段位置}的字典作为数据模式，然后按照该模式装配读取的列表数据，最后实现用字典的方式访问数据。

所使用的函数：

@staticmethod def map_fields_dict_schema(fields, dict_schema): """根据字段的模式，返回模式和数据值的对应值；例如 fields为['a','b','c'],schema为{'name':0, 'age':1}，那么就返回{'name':'a','age':'b'} @param fields: 包含有数据的数组，一般是通过对一个Line String通过按照\t分割得到 @param dict_schema: 一个词典，key是字段名称，value是字段的位置； @return: 词典，key是字段名称，value是字段值 """ pdict = {} for fstr, findex in dict_schema.iteritems(): pdict[fstr] = str(fields[int(findex)]) return pdict

@ staticmethod

def map_fields_dict_schema ( fields , dict_schema ) :

"""根据字段的模式，返回模式和数据值的对应值；例如 fields为['a','b','c'],schema为{'name':0, 'age':1}，那么就返回{'name':'a','age':'b'}

@param fields: 包含有数据的数组，一般是通过对一个Line String通过按照\t分割得到

@param dict_schema: 一个词典，key是字段名称，value是字段的位置；

@return: 词典，key是字段名称，value是字段值

"""

pdict = { }

for fstr , findex in dict_schema . iteritems ( ) :

pdict [ fstr ] = str ( fields [ int ( findex ) ] )

return pdict

有了该方法和之前的方法，可以用以下的方式读取数据：

# coding:utf8 """ @author: www.crazyant.net 测试使用字典模式加载数据列表优点：对于多列文件，只通过配置需要读取的字段，就能读取对应列的数据缺点：如果字段较多，每个字段的位置配置，较为麻烦 """ import file_util import pprint # 配置好的要读取的字典模式，可以只配置自己关心的列的位置 dict_schema = {"userid":0, "username":1, "usertype":2} for fields in file_util.FileUtil.read_file_data("userfile.txt"): # 将字段列表，按照字典模式进行映射 dict_fields = file_util.FileUtil.map_fields_dict_schema(fields, dict_schema) pprint.pprint(dict_fields)

# coding:utf8

"""

@author: www.crazyant.net

测试使用字典模式加载数据列表

优点：对于多列文件，只通过配置需要读取的字段，就能读取对应列的数据

缺点：如果字段较多，每个字段的位置配置，较为麻烦

"""

import file_util

import pprint

# 配置好的要读取的字典模式，可以只配置自己关心的列的位置

dict_schema = { "userid" : 0 , "username" : 1 , "usertype" : 2 }

for fields in file_util . FileUtil . read_file_data ( "userfile.txt" ) :

# 将字段列表，按照字典模式进行映射

dict_fields = file_util . FileUtil . map_fields_dict_schema ( fields , dict_schema )

pprint . pprint ( dict_fields )

输出结果：

{'userid': '1', 'username': 'name1', 'usertype': '0'} {'userid': '2', 'username': 'name2', 'usertype': '1'} {'userid': '3', 'username': 'name3', 'usertype': '2'} {'userid': '4', 'username': 'name4', 'usertype': '3'} {'userid': '5', 'username': 'name5', 'usertype': '4'} {'userid': '6', 'username': 'name6', 'usertype': '5'} {'userid': '7', 'username': 'name7', 'usertype': '6'} {'userid': '8', 'username': 'name8', 'usertype': '7'} {'userid': '9', 'username': 'name9', 'usertype': '8'} {'userid': '10', 'username': 'name10', 'usertype': '9'} {'userid': '11', 'username': 'name11', 'usertype': '10'} {'userid': '12', 'username': 'name12', 'usertype': '11'}

{ 'userid' : '1' , 'username' : 'name1' , 'usertype' : '0' }

{ 'userid' : '2' , 'username' : 'name2' , 'usertype' : '1' }

{ 'userid' : '3' , 'username' : 'name3' , 'usertype' : '2' }

{ 'userid' : '4' , 'username' : 'name4' , 'usertype' : '3' }

{ 'userid' : '5' , 'username' : 'name5' , 'usertype' : '4' }

{ 'userid' : '6' , 'username' : 'name6' , 'usertype' : '5' }

{ 'userid' : '7' , 'username' : 'name7' , 'usertype' : '6' }

{ 'userid' : '8' , 'username' : 'name8' , 'usertype' : '7' }

{ 'userid' : '9' , 'username' : 'name9' , 'usertype' : '8' }

{ 'userid' : '10' , 'username' : 'name10' , 'usertype' : '9' }

{ 'userid' : '11' , 'username' : 'name11' , 'usertype' : '10' }

{ 'userid' : '12' , 'username' : 'name12' , 'usertype' : '11' }

映射到模型之方法2：使用配置好的列表模式，装配读取的数据列表

如果需要读取文件所有列，或者前面的一些列，那么配置字典模式优点复杂，因为需要给每个字段配置索引位置，并且这些位置是从0开始完后数的，属于低级劳动，需要消灭。

列表模式应命运而生，先将配置好的列表模式转换成字典模式，然后按字典加载就可以实现。

转换模式，以及用按列表模式读取的代码：

@staticmethod def transform_list_to_dict(para_list): """把['a', 'b']转换成{'a':0, 'b':1}的形式 @param para_list: 列表，里面是每个列对应的字段名 @return: 字典，里面是字段名和位置的映射 """ res_dict = {} idx = 0 while idx < len(para_list): res_dict[str(para_list[idx]).strip()] = idx idx += 1 return res_dict @staticmethod def map_fields_list_schema(fields, list_schema): """根据字段的模式，返回模式和数据值的对应值；例如 fields为['a','b','c'],schema为{'name', 'age'}，那么就返回{'name':'a','age':'b'} @param fields: 包含有数据的数组，一般是通过对一个Line String通过按照\t分割得到 @param list_schema: 列名称的列表list @return: 词典，key是字段名称，value是字段值 """ dict_schema = FileUtil.transform_list_to_dict(list_schema) return FileUtil.map_fields_dict_schema(fields, dict_schema)

@ staticmethod

def transform_list_to_dict ( para_list ) :

"""把['a', 'b']转换成{'a':0, 'b':1}的形式

@param para_list: 列表，里面是每个列对应的字段名

@return: 字典，里面是字段名和位置的映射

"""

res_dict = { }

idx = 0

while idx < len ( para_list ) :

res_dict [ str ( para_list [ idx ] ) . strip ( ) ] = idx

idx += 1

return res _dict

@ staticmethod

def map_fields_list_schema ( fields , list_schema ) :

"""根据字段的模式，返回模式和数据值的对应值；例如 fields为['a','b','c'],schema为{'name', 'age'}，那么就返回{'name':'a','age':'b'}

@param fields: 包含有数据的数组，一般是通过对一个Line String通过按照\t分割得到

@param list_schema: 列名称的列表list

@return: 词典，key是字段名称，value是字段值

"""

dict_schema = FileUtil . transform_list_to_dict ( list_schema )

return FileUtil . map_fields_dict_schema ( fields , dict_schema )

使用的时候，可以用列表的形式配置模式，不需要配置索引更加简洁：

# coding:utf8 """ @author: www.crazyant.net 测试使用列表模式加载数据列表优点：如果读取所有列，用列表模式只需要按顺序写出各个列的字段名就可以缺点：不能够只读取关心的字段，需要全部读取 """ import file_util import pprint # 配置好的要读取的列表模式，只能配置前面的列，或者所有咧 list_schema = ["userid", "username", "usertype"] for fields in file_util.FileUtil.read_file_data("userfile.txt"): # 将字段列表，按照字典模式进行映射 dict_fields = file_util.FileUtil.map_fields_list_schema(fields, list_schema) pprint.pprint(dict_fields)

# coding:utf8

"""

@author: www.crazyant.net

测试使用列表模式加载数据列表

优点：如果读取所有列，用列表模式只需要按顺序写出各个列的字段名就可以

缺点：不能够只读取关心的字段，需要全部读取

"""

import file_util

import pprint

# 配置好的要读取的列表模式，只能配置前面的列，或者所有咧

list_schema = [ "userid" , "username" , "usertype" ]

for fields in file_util . FileUtil . read_file_data ( "userfile.txt" ) :

# 将字段列表，按照字典模式进行映射

dict_fields = file_util . FileUtil . map_fields_list_schema ( fields , list_schema )

pprint . pprint ( dict_fields )

运行结果和字典模式的完全一样。

file_util.py全部代码

以下是file_util.py中的全部代码，可以放在自己的公用类库中使用

# -*- encoding:utf8 -*- ''' @author: www.crazyant.net @version: 2014-12-5 ''' class FileUtil(object): '''文件、路径常用操作方法 ''' @staticmethod def read_file_data(filepath): '''根据路径按行读取文件, 参数filepath：文件的绝对路径 @param filepath: 读取文件的路径 @return: 按\t分割后的每行的数据列表 ''' fin = open(filepath, 'r') for line in fin: try: line = line[:-1] if not line: continue except: continue try: fields = line.split("\t") except: continue # 抛出当前行的分割列表 yield fields fin.close() @staticmethod def transform_list_to_dict(para_list): """把['a', 'b']转换成{'a':0, 'b':1}的形式 @param para_list: 列表，里面是每个列对应的字段名 @return: 字典，里面是字段名和位置的映射 """ res_dict = {} idx = 0 while idx < len(para_list): res_dict[str(para_list[idx]).strip()] = idx idx += 1 return res_dict @staticmethod def map_fields_list_schema(fields, list_schema): """根据字段的模式，返回模式和数据值的对应值；例如 fields为['a','b','c'],schema为{'name', 'age'}，那么就返回{'name':'a','age':'b'} @param fields: 包含有数据的数组，一般是通过对一个Line String通过按照\t分割得到 @param list_schema: 列名称的列表list @return: 词典，key是字段名称，value是字段值 """ dict_schema = FileUtil.transform_list_to_dict(list_schema) return FileUtil.map_fields_dict_schema(fields, dict_schema) @staticmethod def map_fields_dict_schema(fields, dict_schema): """根据字段的模式，返回模式和数据值的对应值；例如 fields为['a','b','c'],schema为{'name':0, 'age':1}，那么就返回{'name':'a','age':'b'} @param fields: 包含有数据的数组，一般是通过对一个Line String通过按照\t分割得到 @param dict_schema: 一个词典，key是字段名称，value是字段的位置； @return: 词典，key是字段名称，value是字段值 """ pdict = {} for fstr, findex in dict_schema.iteritems(): pdict[fstr] = str(fields[int(findex)]) return pdict