微信公众号文章迁移至其他平台的自动化

一、需求

将微信公众号的文章发布到另一平台(以下称A平台)

二、思路

思路1:打开文章链接后复制文章内容并黏贴至A平台的编辑器

思路2:利用A平台的引用链接功能。

本次采用思路2解决。

三、工具

python、uibot

四、步骤

1、进入公众号的查看历史消息;

2、右键-查看源代码(注意:源代码仅有加载的内容部分,需要根据需求将后续的内容加载完成,即下滚)-另存文件;

3、采用python的bs4模块解析出需要的内容,本次提取出每篇文章的链接、标题和日期,保存到excel文件;

4、数据清洗。根据提取的内容和实际需求清洗,本次一是提取链接必要的部分(即去掉部分尾部带的内容也可以正常打开,因为尾部内容有些为来源的跟踪代码或其他,可以去掉);二是将日期转换为YYYY-MM-DD格式

5、用uibot进行自动化操作。循环读取excel的内容,填入页面的标题、日期,以及引用功能所需的链接。

、遇到的困难及解决

1、A平台的日期输入为日历控件(如下图),不能执行一般的文本框输入操作。解决方案是执行js代码。首先,网上有些解决方式是先移除readonly的属性,然后再赋值给日期框,但发现在移除readonly的属性的代码处报错(见注释1),尝试直接执行赋值日期的代码(见注释2),虽然也报错,但A平台的日历控件已定位在需要的日期,于是加上捕获异常,直接跳过错误,然后按照手动操作的方式进行自动化。(即点击日历控件文本框,点击确定按钮,因为此时已定位在正确的日期上,就可以直接点确定了,见注释3)

Try
        // sRet = WebBrowser.RunJS(hWeb,'''document.getElementById("wzrq").removeAttribute("readonly");''',True,{"bContinueOnError":False,"iDelayAfter":300,"iDelayBefore":200}) //注释1
        dateJs='document.getElementById("wzrq").value = ' & '"' & date & '"'
        sRet = WebBrowser.RunJS(hWeb,dateJs,True,{"bContinueOnError":False,"iDelayAfter":300,"iDelayBefore":200}) //注释2
Catch e
    TracePrint ""
End Try
// 点击日期框--注释3
Mouse.Action({"html":[{"id":"wzrq","tag":"INPUT"}],"wnd":[{"app":"iexplore","cls":"IEFrame","title":"*"},{"cls":"Internet Explorer_Server"}]},"left","click",10000,{"bContinueOnError":False,"iDelayAfter":300,"iDelayBefore":200,"bSetForeground":True,"sCursorPosition":"Center","iCursorOffsetX":0,"iCursorOffsetY":0,"sKeyModifiers":[],"sSimulate":"simulate","bMoveSmoothly":False})
// 点击日历控件的确定按钮--注释3
Mouse.Action({"html":[{"aaname":"确定","parentid":"layui-laydate1","tag":"SPAN"}],"wnd":[{"app":"iexplore","cls":"IEFrame","title":"*"},{"cls":"Internet Explorer_Server"}]},"left","click",10000,{"bContinueOnError":False,"iDelayAfter":300,"iDelayBefore":200,"bSetForeground":True,"sCursorPosition":"Center","iCursorOffsetX":0,"iCursorOffsetY":0,"sKeyModifiers":[],"sSimulate":"simulate","bMoveSmoothly":False})

2、引用链接后可能因网络问题出现未加载成功,如果此时直接进入下一步则文章内容为空。解决此类问题,一方面是延缓引入链接的后续操作,使其有足够时间加载(即设置延迟),另一方面主要是是寻找加载前后的变化,如判断页面源码是否已出现加载完成才会有的元素等。本次判断变化的思路是利用编辑器的字数提示(见下图),采用定位+截图+图片识别的方式,若链接未加载成功,则识别出来为“已输入0字0图,预计阅读0分钟”,若加载成功则结果不同,根据句子的特征(X字X图X分钟)采用正则表达式提取出其中的数字(本次提取的结果为数组),和数组[0,0,0]比较,若相等则未加载成功,循环重新加载,若不相等则加载成功。附注:本次具体场景下,一是链接加载前我先清空原编辑器的内容(编辑器带的清空功能),保证确定无内容(即“已输入0字0图,预计阅读0分钟”),二是未发现uibot的数组是否相等判断功能,采用自定义python插件函数实现。

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值