python 怎么找文件中的日文_如何处理python中的大文件

明嘻嘻

于 2021-01-05 10:49:24 发布

阅读量99

点赞数

文章标签： python 怎么找文件中的日文

本文链接：https://blog.csdn.net/weixin_30212009/article/details/112368519

版权

当只有一台机器可用时，一些数据科学爱好者在处理大型数据文件时遇到了困难。文件大小可能会超过计算机中的可用内存。在大多数数据科学项目中，可以对文件进行拆分处理，以获得机器学习模型所需的数据。例如，按操作分组以获得均值、中位数、最大值、求和或其他值。这将生成一个可以在内存中处理的较小版本的文件。现在的任务是如何将大文件分割成更小的块。

熟悉unix的人会说，使用shell命令或awk可以很容易地完成。文件可以按行、列、列值、大小等进行拆分。以下是两个常见的例子:

1.Unix命令按行数拆分myfile。-l参数定义每个拆分中的最大行数。输出文件如splitfileaa，splitfileab等。

split -l 500 myfile splitfile

2. Unix命令按文件大小拆分。-b参数定义输出的文件大小。同样，输出将具有上面示例中的名称。

split -b 40k myfile splitfile

注意，unix中的awk命令可用于创建按列中的值拆分的不同文件。

将数据拆分到更小的部分后，机器学习开发者就可以在一台机器上进行处理。python中的panda有能力处理这些情况。下面是一个以块的形式读取大文件并动态处理的例子。Python代码示例如下：

import pandas as pd# Split data into smaller chunks and process in partschunk_size = 100000required_data = pd.DataFrame()for data in pd.read_csv(myfile,chunksize = chunk_size): data["datetime"]= pd.to_datetime(data["timestamp"],unit = 's') data["datetime"]=data["datetime"].dt.tz_localize('UTC').dt.tz_convert('Asia/Kolkata') data["date"] =data["datetime"].dt.date data["week"] =data["datetime"].dt.week data["hour"] = data["datetime"].dt.hour data["weekday"] = data["datetime"].dt.day_name() required_data_chunk = data.groupby(["id

明嘻嘻

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 怎么找文件中的日文_如何处理python中的大文件

当只有一台机器可用时，一些数据科学爱好者在处理大型数据文件时遇到了困难。文件大小可能会超过计算机中的可用内存。在大多数数据科学项目中，可以对文件进行拆分处理，以获得机器学习模型所需的数据。例如，按操作分组以获得均值、中位数、最大值、求和或其他值。这将生成一个可以在内存中处理的较小版本的文件。现在的任务是如何将大文件分割成更小的块。熟悉unix的人会说，使用shell命令或awk可以很容易地完成。文...
复制链接

扫一扫