问题场景:
- 爬虫爬取用户微博的发布时间,保存在csv中。
保存格式为2020-01-01 10:10
现需要分别提取 年 月 日 时间 做分析; - 同时已知年月日,希望得到该日是周几。
code
import pandas as pd
from datetime import datetime
t = pd.read_csv('mi10_user_publish_time.txt', encoding='utf-8')
# txt中第一行有表头pubtime,所以才有下一行。若文件中每行为纯数据,则直接用t亦可。
pubtime=t.pubtime
# print(pubtime)
#pub_time = pd.to_datetime(pubtime, format="%Y-%m-%d %H:%M")
df_time=pd.DatetimeIndex(pubtime)
#用DatetimeIndex才可分别提取year hour等,很奇怪。
#print(type(df_time))
#print(df_time.hour)
#以下是将每天对应的周几存到list中
w=[]
for i in df_time:
#print(i)
w.append(datetime.strptime(str(i), '%Y-%m-%d %H:%M:%S').weekday()+1)
print(w)
输出:
时间格式就不谈了,可以用year month hour等属性直接调用了。
周几输出如下:
[3, 6, 5, 2, 0, 6, 0, 0, 0, 6, 5, 2, 1, 6, 6, 0, 5, 4, 3, 3, 2, 0, 0, 3, 3, 3, 2, 1,等等等等]
0-6 对应周一到周日。