环境:
Distro: OS X 10.12.3
python解释器:3.6.1
最近在写一个新闻聚合app,其中服务器端要用python爬取各大新闻网站的rss数据。其中遇到的一个问题是日期格式的统一问题:
新浪新闻的RSS的日期格式是这样的:
<pubDate>Sun, 23 Apr 2017 05:15:05 GMT</pubDate>
百度新闻的RSS的日期格式是这样的:
<pubDate><![CDATA[2017-04-23T05:27:20.000Z]]></pubDate>
我是希望将日期格斯统一为2017-04-23 11:11:11这样的。我找到了这个接口
datetime.datetime.strptime()
问题是如何使用呢,直接看代码就明白了:
import datetime #python3解释器自带datetime模块
newsTime='Sun, 23 Apr 2017 05:15:05 GMT'
GMT_FORMAT = '%a, %d %b %Y %H:%M:%S GMT'
newsTime=datetime.datetime.strptime(newsTime,GMT_FORMAT)
print(newsTime)#2017-04-23 05:15:05
我们成功得到了结果,可以看到问题的关键在于接口的第二个参数:GMT_FORMAT:只要GMT_FORMAT匹配原来的日期格式即可
GMT代表的是格林尼治时间,如果要转换成北京时间,还要加上8小时:
newsTime=datetime.datetime.strptime(newsTime,BAI_FORMAT)+date.timedelta(hours=8)
百度新闻网站的RSS时间格式留待读者自己转换。
-
注意:
Apr,Sept等月份简写的占位符是%b, 而03,04这些月份数字的占位符是%m