很长一段时间没有更新简书的内容了,打算把微博爬虫完善得差不多之后,再系统的把做微博爬虫的每个模块和阶段都记录下来。其中微博页面抓取和解析、用户页面抓取和分析等模块,都是可以复用的。现在还只是单机单线程,因为微博的反爬虫机制还没完全研究透,等找到抓取的阈值后再考虑分布式或者多进程。这里是微博扩散分析的项目地址,有兴趣的可以看看,喜欢的话不防点个star,如何?
这篇文章写的是基于模拟登陆微博的一个小工具。使用情况是人不在办公室,但是电脑没有关闭,需要远程关闭电脑。对模拟登陆微博有问题的同学,请移步我的这篇文章。下面进入正题。
思路
定时模拟登陆(定时是因为微博cookie24小时失效),关于模拟登陆详细步骤可参考我的博文,代码可参考github项目
定时(10分钟)获取最新一条微博,并把发布时间和系统时间做比较,如果相差在半个小时以内,我们就认为命令有效,那么就让系统执行关机命令
项目依赖
模拟登陆+页面解析:
requests+pyexecjs+beautifulsoup
pip install requests
pip install bs4
pip install PyExecJS
命令行解析docopt
pip install docopt
phantomjs
windows:在phantomjs官网下载它,并且把它的路径添加到环境变量中
ubuntu:sudo apt-get install phantomjs 或者到官网下载并且添加到环境变量中
各个模块和代码
login.py