python读取行、分割、存储_在Python中读取文本文件，用'，'分隔，并用'；'作为行终端...

最新推荐文章于 2023-04-03 11:59:58 发布

weixin_33146437

最新推荐文章于 2023-04-03 11:59:58 发布

阅读量417

点赞数

文章标签： python读取行、分割、存储

本文链接：https://blog.csdn.net/weixin_33146437/article/details/113678488

版权

博主面临的问题是在处理200MB+的文本文件时，文件以逗号分隔，用分号作为行终止符。在尝试使用pandas读取并分析数据时遇到错误，特别是设置`lineterminator`参数时。他们寻求关于如何正确读取和操作这些文件的建议。

摘要由CSDN通过智能技术生成

我的问题是，我有多个大小为200mb+的文本文件，使用这种格式(非常少的示例)：john,smith,3;sasha,dilma,4;sofia,vergara,5;etc.

我需要阅读所有这些文件并分析信息、图表、总和等

我一直在考虑用不同的方法保存数据并在Python中使用它。但是，每当我尝试将数据加载到数据库中或直接在Python中(也尝试使用lineterminator参数)时，行终止符“；”都会导致问题，例如：

^{pr2}$

结果：# 3 first users:

name last_name number

0 john,smith,3 sasha,dilma,4 sofia,vergara,5

编辑。当我像这样实现lineterminator时：users = pd.read_table('C:/prueba.txt', engine='python', sep=',', lineterminator=';', header=None, names=userHeader)

我得到以下信息：---------------------------------------------------------------------------

ValueError Traceback (most recent call last)

in ()

1 import pandas as pd

2 userHeader = ['user_id', 'gender', 'age']

----> 3 users = pd.read_table('C:/prueba.txt', engine='python', sep=';', lineterminator=';', header=None, names=userHeader)

5 # print 5 first users

C:\Users\molmos\Anaconda\lib\site-packages\pandas\io\parsers.pyc in parser_f(filepath_or_buffer, sep, dialect, compression, doublequote, escapechar, quotechar, quoting, skipinitialspace, lineterminator, header, index_col, names, prefix, skiprows, skipfooter, skip_footer, na_values, na_fvalues, true_values, false_values, delimiter, converters, dtype, usecols, engine, delim_whitespace, as_recarray, na_filter, compact_ints, use_unsigned, low_memory, buffer_lines, warn_bad_lines, error_bad_lines, keep_default_na, thousands, comment, decimal, parse_dates, keep_date_col, dayfirst, date_parser, memory_map, float_precision, nrows, iterator, chunksize, verbose, encoding, squeeze, mangle_dupe_cols, tupleize_cols, infer_datetime_format, skip_blank_lines)

472 skip_blank_lines=skip_blank_lines)

473

--> 474 return _read(filepath_or_buffer, kwds)

475

476 parser_f.__name__ = name

C:\Users\molmos\Anaconda\lib\site-packages\pandas\io\parsers.pyc in _read(filepath_or_buffer, kwds)

248

249 # Create the parser.

--> 250 parser = TextFileReader(filepath_or_buffer, **kwds)

251

252 if (nrows is not None) and (chunksize is not None):

C:\Users\molmos\Anaconda\lib\site-packages\pandas\io\parsers.pyc in __init__(self, f, engine, **kwds)