解析搜狗微信文章页面源码的日期publish_time为空的解决办法(只谈思路,不提供代码)

文章的发布时间无法获取,但是检查页面源码的时候明明是有时间的,如图所示:

<em id="publish_time" class="rich_media_meta rich_media_meta_text"></em>

原来它是网页前端用js生成的时间。

如果想要获取该文章的日期,有一个思路是:

①搜狗微信搜文章,输入关键字
②查看网页源代码,找到
<script>document.write(timeConvert
③用正则表达式获取posix_time 数字
④posix_time转换成想要的日期格式

#附转换日期格式的代码demo

time_string = "<script>document.write(timeConvert('1649771917'))</script>"
import datetime as dt
tt = float(re.findall(r'\d+', time_string)[0])
_date = dt.datetime.utcfromtimestamp(tt).strftime("%Y-%m-%d")
_timestamp = dt.datetime.utcfromtimestamp(tt).strftime("%Y-%m-%d %H:%M:%S")

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值