python文本数据处理学习

最新推荐文章于 2024-06-09 10:11:45 发布

菜鸡的自我拯救

最新推荐文章于 2024-06-09 10:11:45 发布

阅读量1k

点赞数 1

分类专栏： Python学习

本文链接：https://blog.csdn.net/weixin_37659245/article/details/90410445

版权

本文探讨了Python在处理文本数据时如何进行时间离散化，转化为三维矩阵，用于统计和分析访客数据。重点在于创建字典进行时间转换，按行统计和切分字符串，以实现天、周、时刻的矩阵表示。

摘要由CSDN通过智能技术生成

最近越发感觉到限制我对Python运用、以及读懂别人代码的地方，大多是在于对数据的处理能力。
其实编程本质上就是数据处理，怎么把文本数据、图像数据，通过python读入、切分等，变成一个N维矩阵，然后再带入别人的模型，bingo~跑出来一个结果。结果当然也是一个矩阵或向量的形式。
所以说，之所以对很多模型、代码束手无策，其实还是没有掌握好数据处理的“屠龙宝刀”，无法对海量数据进行“庖丁解牛”般的处理。因此，我想以一个别人代码中的一段为例，仔细琢磨文本数据处理的精妙之处，争取能够加深对这方面的运用与理解。

1）问题描述

数据：某个区域181天内的访客数据，格式如下，第一列代表访客的名称，第二列代表这位访客在181天内到达这片区域的时刻：
在这里插入图片描述
目的：将访客数据进行统计，并时间离散化，按照天 /周/小时处理为72624的三维矩阵。
也就是说，矩阵中的每一个值，代表该区域周X、第几周、几点的到访人数，如
[1,5,19]=100,代表第5周的周一晚上7点的人数为100。

2）难点

当然是对我的难点。

2.1）怎么按行统计

2.2）怎么进行时间离散化（存为天、周、时刻的矩阵）

3）代码

import time
import numpy as np
import sys
import datetime
import pandas as pd
import os
#用字典查询代替类型转换，可以减少一部分计算时间
date2position = {
   }
datestr2dateint = {
   }
str2int = {
   }
for i in range(182):
    date = datetime.date(day=1, month=10, year=2018)+datetime.timedelta(days=i)
    #print(i,":",date)
    date_int = int(date.__str__().replace("-", ""))
    date2position[date_int] = [i%

最低0.47元/天解锁文章

菜鸡的自我拯救

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
2
评论
python文本数据处理学习

最近越发感觉到限制我对Python运用、以及读懂别人代码的地方，大多是在于对数据的处理能力。其实编程本质上就是数据处理，怎么把文本数据、图像数据，通过python读入、切分等，变成一个N维矩阵，然后再带入别人的模型，bingo~跑出来一个结果。结果当然也是一个矩阵或向量的形式。所以说，之所以对很多模型、代码束手无策，其实还是没有掌握好数据处理的“屠龙宝刀”，无法对海量数据进行“庖丁解牛”般的处...
复制链接

扫一扫