#coding=utf-8
‘‘‘脚本说明
用来解决csv文件的列异常问题(以逗号分隔符为例):
csv文件有些列含有换行符、逗号等特殊符号,这就导致csv文件出现列异常的情况。
此脚本将csv文件输出成如下文件:源文件名-正确列-文件序号.csv 源文件名-错误列.csv 源文件名-info.txt
常用文本编码: gbk,gb2312,utf-8,utf-8_sig
★:因为没有实现文本编码转换,所以“输入文件编码”和“输出文件编码”要写成一致才行,其中输入文件编码必须正确
不知道为什么有些gbk输入文件会报错:
for count,line in enumerate(open(fileName+fileExt,‘rU‘,encoding=inFileEncoding)):
UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xf8 in position 5902: illegal multibyte sequence
解决办法:
使用powershell转换格式成utf-8,然后在使用本脚本来处理。其中powershell转换格式的代码如下:
Get-Content -path .\2014.csv|Out-File .\2014-1.csv -Encoding "utf-8"‘‘‘
#单行注释
‘‘‘多行注释:
取模运算:
if a % b == 0 :
print ‘yes‘
else:
print ‘no‘
整除语法: 2//1‘‘‘
importos,csv,sys
fileName