python路径分隔符_Python:当读取一个没有默认分隔符的文件(包含数百万条记录)并将其放入dataframe (pa-问答-阿里云开发者社区-阿里云...

最新推荐文章于 2023-09-19 16:59:46 发布

weixin_39612726

最新推荐文章于 2023-09-19 16:59:46 发布

阅读量255

点赞数

文章标签： python路径分隔符

Python:在没有默认分隔符(包含数百万条记录)的情况下读取文件并将其放入“数据框架(panda)”中，最有效的方法是什么? 文件是:"file_sd.txt"

A123456MESTUDIANTE 000-12

A123457MPROFESOR 003103

I128734MPROGRAMADOR00-111

A129863FARQUITECTO 00-456

# Fields and position:

# - Activity Indicator : indAct -> 01 Character

# - Person Code : codPer -> 06 Characters

# - Gender (M / F) : sex -> 01 Character

# - Occupation : occupation -> 11 Characters

# - Amount(User format): amount -> 06 Characters (Convert to Number)

我不确定。这是最好的选择吗?

import pandas as pd

import numpy as np

def stoI(cad):

pos = cad.find("-")

if pos < 0: return int(cad)

return int(cad[pos+1:])*-1

#Read Txt

data = pd.read_csv(r'D:\file_sd.txt',header = None)

data_sep = pd.DataFrame(

{

'indAct' :data[0].str.slice(0,1),

'codPer' :data[0].str.slice(1,7),

'sexo' :data[0].str.slice(7,8),

'ocupac' :data[0].str.slice(8,19),

'monto' :np.vectorize(stoI)(data[0].str.slice(19,25))

})

print(data_sep)

indAct codPer sexo ocupac monto

0 A 123456 M ESTUDIANTE -12

1 A 123457 M PROFESOR 3103

2 I 128734 M PROGRAMADOR -111

3 A 129863 F ARQUITECTO -456

这个7百万行的解决方案。结果是:

%timeit df_slice()

11.1 s ± 166 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

问题来源StackOverflow 地址：/questions/59383835/python-efficiency-when-reading-a-file-without-a-default-delimiter-with-millions

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39612726

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python输入逗号分隔_python-将多索引DataFrame的行合并为逗号分隔的列表

weixin_39727005的博客

11-24

743

给定一个多索引DataFrame,我想组合重复的索引对并将其值列出为逗号分隔的列表.例如,输入：df = pd.DataFrame({'Last Name' : ['Deere','Deere','Foo' ,'Foo' ,'Man' ],'First Name': ['John' ,'Jane' ,'Kung' ,'Kung' ,'Karate'],'Value1': [ 1...

python路径分隔符_Python中的文件路径的分隔符

weixin_39558221的博客

11-21

1261

主要是需要考虑分隔符的问题：在Windows系统下的分隔符是：\ (反斜杠)。在Linux系统下的分隔符是：/（斜杠）。当在字符中出现\时,大家就要考虑到转义字符了。转义字符的概念，参考维基百科：一个转义字符的目的是开始一个字符序列，使得转义字符开头的该字符序列具有不同于该字符序列单独出现（没有转义字符开头）时的语义。最常见的转义字符就是“\”。例如\n表示换行，但是单独的n则就是一个字母n。在上...

参与评论您还未登录，请先登录后发表或查看评论

python中如何得到系统的目录分割符

scm002的博客

06-25

1240

C:\test-release>pythonPython 3.2.3 (default, Apr 11 2012, 07:15:24) [MSC v.1500 32 bit (Intel)] on win32Type "help", "copyright", "credits" or "license" for more information.>>> import os&

文件读取和写入时，文件分隔符的差别

Andrewhunter的专栏

11-22

1526

发现python中Image和fle在打开文件时，文件分隔符的三种写法都支持，即如下都是可以的 img = Image.open("C:\QQ图片.jpg") img = Image.open("C:\\QQ图片.jpg") img = Image.open("C:/QQ图片.jpg") file("d:/python_file.txt", "w") file("d:\python_

python split默认以什么分割,python中split怎么分割（字符串split方法）

weixin_39634022的博客

03-25

2536

：没用理解按大小分割的意思，大概是按指定长度分割吧？比较直接的方法：# 比如7个字符分割c =7 s ='asdfaddsfgsdfgdsfgsdfg'print [s[i:i+c] for i in xrange(0,len(s),c)]最佳木乃伊安娜苏案楼主你好！python中的split()不带任何参数是个很好用的特性：忽略具体的空格数来分割字符串。请看一下代码：handle_string ...

Python读取csv文件分隔符设置方法

09-19

### Python读取CSV文件分隔符设置方法详解在日常工作中，我们经常需要处理各种格式的数据文件，其中CSV（Comma-Separated Values）文件因其简单易用的特点被广泛使用。然而，在处理不同来源的CSV文件时，经常会...

python 输出文件分隔符_使用Python文件读写,自定义分隔符的方法

weixin_31733409的博客

02-20

2611

使用Python文件读写,自定义分隔符的方法发布时间：2020-07-06 11:07:56来源：亿速云阅读：121作者：清晨小编给大家分享一下使用Python文件读写,自定义分隔符的方法，希望大家阅读完这篇文章后大所收获，下面让我们一起去探讨吧！众所周知，python文件读取文件的时候所支持的newlines(即换行符)，是指定的。这一点不管是从python的doucuments上还是在pyth...

python 读取竖线分隔符的文本方法

12-24

以上这篇python 读取竖线分隔符的文本方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持软件开发网。您可能感兴趣的文章:python处理两种分隔符的数据集方法python针对不定分隔符切割...

转： Spark 的核心概念 RDD

PacosonSWJTU的博客

09-24

247

转自：https://juejin.im/post/6844903826953076750 1.RDD 概述 1.1 什么是 RDD ? RDD(Resilient Distributed Dataset) 叫着弹性分布式数据集，是Spark 中最基本的抽象，它代表一个不可变、可分区、里面元素可以并行计算的集合。 RDD 具有数据流模型特点：自动容错、位置感知性调度和可伸缩。 RDD 允许用户在执行多个查询时，显示地将工作集缓存在内存中，后续的查询能够重用工作集，这将会极大的提升查...

在Python中，对Dataframe形式一行数据进行切分，delimiter=‘\t‘ 与 sep=‘\t‘ 的区别

最新发布

m0_60040368的博客

09-19

1642

例如：如下的数据，若不设置参数，导入后每一行的的数据会是：1\t0.455\t0.365\t0.095\t0.514\t0.2245\t0.101，那么如何以'\t'为分隔符切分为多列数据呢？delimiter和 sep都用于指定分隔符，delimiter主要与处理文件时的文本解析有关，而 sep 主要与数据导入和分割字符串时有关。

【Pyhton自学笔记】Pyhton如何判断操作系统类型以及获取系统路径分隔符（ \ /）

XiaoqiangClub的博客

05-06

1212

分隔符 Python使用os.path.sep可以轻松的获取到当前系统的路径分隔符：一般都是\ 或 / 如果我们的代码需要在不同平台运行的话，使用这个方法可以很轻松的解决我们路径分隔符的问题参考代码 # 路径分隔符 # path = r'C:\Users\Administrator\Desktop\toga-app-template\resources' path = '/Users/apple/Desktop/toga-app-template/resources' path_sep = os.pa

python路径分隔符_Python中的路径以及目录的操作

weixin_39744384的博客

11-24

2568

"""相对路径在学习相对路径之前,需要了解什么是当前工作目录,当前工作目录指的是当前文件所在的目录。在Python中，可以通过os模块提供的getcwd()函数获取当前工作目录."""import osimport shutil# print(os.getcwd()) # 输出当前工作目录"""在python中，指定文件路径需要对路径分隔符"\"进行转义,即将路径中的"\"替换为"\\"也可以...

python正确读取文件路径的三种解决方法

积跬步，慕至千里的博客

01-30

1万+

日常用程序读取文件数据等时，常常会显示一些诸如文件路径不存在等错误信息。常用解决的三种方法。

Python pandas 读取文件——读取具有明显分隔符的数据

在到处之间找我

12-17

3万+

首先我们来列举一下 pandas 处理文件的函数1： pd.read_csv(filepath)：从 CSV 文件导入数据 pd.read_table(filepath)：从限定分隔符的文本文件导入数据 pd.read_excel(filepath)：从 Excel 文件导入数据 pd.read_sql(query, connection_object)：从 SQL 表 / 库导入数据 pd.r...

Python DataFrame数据格式化（设置小数位数，百分比，千分位分隔符）（Pandas篇-18）

侯小啾技术博客

03-07

8403

Python Pandas DataFrame数据格式化（设置小数位数，百分比，千分位分隔符）（第18讲）1. 设置小数位数1.1 `round()`方法-设置统一小数位数1.2 `round()`方法-分别设置不同小数位数1.3 使用`applymap`自定义函数2. 设置为百分比格式3. 设置千分位分隔符

【python】pandas库pd.read_csv操作读取分隔符csv文件和文本text文件参数整理与实例