pythoncsv按内容切分_CSV文件分割与列异常处理的python脚本

最新推荐文章于 2023-08-17 09:05:59 发布

weixin_39723678

最新推荐文章于 2023-08-17 09:05:59 发布

阅读量132

点赞数

文章标签： pythoncsv按内容切分

文件编码 Python chardet gb18030 UnicodeDecodeError

关键词由CSDN通过智能技术生成

1 #!/usr/bin/env python3

2 #coding=utf-8

4 importos, csv, sys, locale, codecs, chardet, time5 from argparse importArgumentParser, RawTextHelpFormatter6

7 #操作系统中默认的文件编码(当文件编码为中文扩展字符集时，统一使用gb18030编码--比gb2312和gbk支持的汉字多，同时兼容gb2312和gbk)

8 #中文扩展字符集编码列表

9 chinese_charsetstr='|gbk|gb2312|gb18030|cp936|'

10 default_chinese_charset='gb18030'

11 #使用gb18030解决了类似下面的错误：UnicodeDecodeError: 'gbk' codec can't decode byte 0xf8 in position 5902: illegal multibyte sequence

12 defaultencoding = default_chinese_charset if chinese_charsetstr.find(locale.getpreferredencoding().lower())>0 elselocale.getpreferredencoding().lower()13

14 def detectfileencoding(filename, filerowcount=None, info_fileobj=None):15 #获取文件编码（为空则设置为操作系统默认文件编码，其中中文扩展字符集统一设置为'gb18030'大字符集）

16 time_start=time.time()17 #编码检测结果

18 detectresult=''

19 with codecs.open(filename, 'rb') as fobj:20 if filerowcount==None:21 fcontent =fobj.read()22 detectresult =chardet.detect(fcontent)23 else:24 linenum =025 maxdetectrownum = 100 if filerowcount > 100 elsefilerowcount26 #初始化要检测编码的内容

27 fcontent =bytes()28 for line infobj.readlines():29 linenum += 1

30 if linenum

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39723678

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

safegraph数据预处理（三）：将csv文件按指定字段不同的值进行拆分

xslwyz的博客

02-01

435

将Nin1.csv按region不同的值进行拆分，保存为xxx-region.csv，经验证全部55个子文件大小之和等于父文件的大小。 import pandas as pd import time # fileLocation='D:/2020-06-08-weekly-patterns.csv' # fileLocation='D:/baidu_netdisk/safegraph/weeklyPlacesPatterns/patterns_backfill/2020/12/14/21/2020/06/0

python 按列读取csv文件 csv

xiaojiayia的博客

01-19

1万+

python csv文件按列读取

参与评论您还未登录，请先登录后发表或查看评论

python3 csv模块_如何在python3.x csv模块功能中将数据拆分为一列并将值存储在新列中...

weixin_39951773的博客

12-08

139

我正在尝试分割一列中存在的数据并将其存储到一个新的列中。**Inputdata.csv**Braund, Mr. Owen Harris ,1Heikkinen, Miss. Laina ,0Allen, Mr. William Henry ,0**Expecting_output.csv**Braund,Owen Harris ,1,MrHeikkinen,Laina ,0,MissAllen,...

用python获取.csv文件中某一列或者某些列

weixin_64338372的博客

04-19

4868

【代码】用python获取.csv文件中某一列或者某些列。

python读取csv文件，并获取某行某列的值

keep forward, go, go, go

12-01

4万+

python读取csv的文件，可以用pandas包来读取，比如 import pandas as pd df = pd.read_csv("filename.csv") print(df) 读取数据后，若要获取某一行某一列的值， # 获取某一行的值 print(df.iloc[1]) # 获取某一列的值 print(df["item_id"]) # 列名是item_id的列 # 获取某一行某一列的值 print(df.iloc[1]["item_id"]) ...

pythoncsv按内容切分_Python拆分大型CSV文件代码实例

weixin_31433527的博客

01-29

682

这篇文章主要介绍了Python拆分大型CSV文件代码实例,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下#!/usr/bin/env python3# -*- coding:utf-8 -*-# @FileName :Test.py# @Software PyCharmimport osimport pandas as pd# filename为文...

python实现按行切分文本文件的方法

12-25

本文实例讲述了python实现按行切分文本文件的方法。分享给大家供大家参考，具体如下： python脚本利用shell命令来实现文本的操作，这些命令大大减少了我们的代码量。比如按行切分文件并返回切分后得到的文件列表，...

Python分割文件

cc2018isdanshen的博客

08-20

428

1. 背景介绍有一个结构化数据，几十G（20w*3w）,基于数据建模，但列数太多，需要先做特征筛选，再入模，但是数据太大，pandas读取会报Memory error,那么该怎么分割该数据，以求pandas可以读取呢？ 2.1 方法1：按列分开把文件按列分成29个小文件，再逐个读取文件操作 for i in range(29): locals()['fp'+str(i+1)] = open('./data1/'+'file'+str(i+1)+'.csv', 'w') for line in

python异常值处理(数据清洗)，含时序数据连续相同值处理

最新发布

weixin_46713695的博客

08-17

1243

python异常值处理

python ocr 识别中文pdf_基于Python实现对PDF文件的OCR识别

weixin_39816024的博客

12-08

1635

http://www.jb51.net/article/89955.htmhttps://pythontips.com/2016/02/25/ocr-on-pdf-files-using-python/大家可能听说过使用Python进行OCR识别操作。在Python中，最出名的库便是Google所资助的tesseract。利用tesseract可以很轻松地对图像进行识别。现在问题来了，如果想对一个...

Python 读取csv的某列

qq_37668436的博客

12-27

2432

import pandas as pd datas = pd.read_csv('f.csv',usecols=['lie1',"lie2"]) print(datas['lie1'])# 键对应列的名字，值就是那一列的值

python之读取cdv

weixin_34218579的博客

06-26

1348

　　csv是Comma-Separated Values的缩写，是用文本文件形式储存的表格数据，比如如下的表格：就可以存储为csv文件，文件内容是：No.,Name,Age,Score1,Apple,12,982,Ben,13,973,Celia,14,964,Dave,15,95假设上述csv文件保存为"A.csv"，如何用Python像操作Excel一样提取其中的一列，即一个字段，...

Python将csv文件以某列为条件分类切割

liuquanfeng123的博客

09-15

1万+

背景项目中有一个数据文件数量庞大，一个文件中按照年月日分成几十万条数据，想试试能不能用python把它简单切割一下，按照日期分类切成小的csv文件。于是在网上找了很多资料，结合自己的一些修改，整理了一下，方便以后再用。大概步骤 1、读取文件 2、找出需要分类的列 3、将此列中重复的内容删除，每类剩余一条 4、把该列所有符合某一类的内容存入一个csv文件中上代码 import pandas ...

Pandas Python读取CSV文件中的某一列

u011106733的博客

09-28

5万+

本人菜鸟一枚，刚刚接触Python，也不是专门研究Python的，但是在处理数据的时候需要用到，就简单的记录一下的自己学习。 1.首先就是读取csv文件 address=pd.read_csv("C:/..../文件名",usecols=[2]) #括号中第一个参数是读取文件的路径，第二个参数是读取csv文件中的某一列，2代表第三列 2.输出csv文件 address.to_cs

python对csv文件中某一列进行遍历_python获取csv文件中某一列或者某些列

weixin_32175667的博客

01-29

6487

把三个csv文件中的feature值整合到一个文件中，同时添加相应的label。# -*-coding:utf-8 -*-import csv;label1 = '1'label2 = '2'label3 = '3'a = "feature1,feature2,feature3,feature4,feature5,feature6,feature7,feature8,feature9,featur...

利用python对CSV文件分组并拆分文件

幸运的Alina的博客

07-03

1万+

脚本背景：提取了不同类别下的购买手机号码，由于数据量巨大，需要对数据进行分组，得到不同类别下的手机号码，同时自动拆分文件，按照一个特定类别输出文件。import pandas as pd#read data from csv df=pd.read_csv('C:\\Users\\Administrator\\Documents\\haomabao.csv',sep=',',engine='pyt...

pythoncsv按内容切分_如何在python中分割CSV文件？

weixin_39825872的博客

11-29

447

在第二到最后一个文件中，你必须添加原始文件的第一行(包含标题的第一行)：# this loads the first file fully into memorywith open('#', 'r') as f:csvfile = f.readlines()linesPerFile = 1000000filename = 1# this is better then your former loo...

python获取csv文件中某一列或者某些列