python读取数据时出现错误_Python Pandas:错误标记数据 . C错误:读取1GB CSV文件时字符串内的EOF...

我正在读取10,000行的1 GB CSV文件 . 该文件有1106012行和171列,其他较小的文件没有显示任何错误并成功完成但是当我读取这个1 GB文件时,它每次都在正确的行号1106011上显示错误,这是第二行文件,我可以手动删除该行,但这不是解决方案,因为我有数百个相同大小的其他文件,我无法手动修复所有行 . 请有人帮我 .

def extract_csv_to_sql(input_file_name, header_row, size_of_chunk, eachRow):

df = pd.read_csv(input_file_name,

header=None,

nrows=size_of_chunk,

skiprows=eachRow,

low_memory=False,

error_bad_lines=False,

sep=',')

# engine='python'

# quoting=csv.QUOTE_NONE

# encoding='utf-8'

df.columns = header_row

df = df.drop_duplicates(keep='first')

df = df.apply(lambda x: x.astype(str).str.lower())

return df

然后我在循环中调用此函数并且工作得很好 .

huge_chunk_return = extract_csv_to_sql(huge_input_filename, huge_header_row, the_size_of_chunk_H, each_Row_H)

engine ='python' quoting = csv.QUOTE_NONE //挂起甚至是python shell,不知道为什么encoding ='utf-8'

但没有一个工作,它仍然抛出以下错误

Error:

Traceback (most recent call last):

File "C:\Users\WCan\Desktop\wcan_new_python\pandas_test_3.py", line 115, in

huge_chunk_return = extract_csv_to_sql(huge_input_filename, huge_header_row, the_size_of_chunk_H, each_Row_H)

File "C:\Users\WCan\Desktop\wcan_new_python\pandas_test_3.py", line 24, in extract_csv_to_sql

sep=',')

File "C:\Users\WCan\AppData\Local\Programs\Python\Python36\lib\site-packages\pandas\io\parsers.py", line 655, in parser_f

return _read(filepath_or_buffer, kwds)

File "C:\Users\WCan\AppData\Local\Programs\Python\Python36\lib\site-packages\pandas\io\parsers.py", line 411, in _read

data = parser.read(nrows)

File "C:\Users\WCan\AppData\Local\Programs\Python\Python36\lib\site-packages\pandas\io\parsers.py", line 1005, in read

ret = self._engine.read(nrows)

File "C:\Users\WCan\AppData\Local\Programs\Python\Python36\lib\site-packages\pandas\io\parsers.py", line 1748, in read

data = self._reader.read(nrows)

File "pandas\_libs\parsers.pyx", line 893, in pandas._libs.parsers.TextReader.read (pandas\_libs\parsers.c:10885)

File "pandas\_libs\parsers.pyx", line 966, in pandas._libs.parsers.TextReader._read_rows (pandas\_libs\parsers.c:11884)

File "pandas\_libs\parsers.pyx", line 953, in pandas._libs.parsers.TextReader._tokenize_rows (pandas\_libs\parsers.c:11755)

File "pandas\_libs\parsers.pyx", line 2184, in pandas._libs.parsers.raise_parser_error (pandas\_libs\parsers.c:28765)

pandas.errors.ParserError: Error tokenizing data. C error: EOF inside string starting at line 1106011

>>>

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值