python selenium 自动下载文档

关于urllib2这个模块,用的时候出错,后来百度了,发现这是python2的模块,python3 中将其改为urllib.request和urllib.error两个模块。使用这两个也能够完成get, open等功能。但是还是直接用python3中的requests模块比较简单,下面网站是关于此模块的一个总结。
http://docs.python-requests.org/zh_CN/latest/user/quickstart.html
看了几个通过爬虫下载文档的例子,但是但是这些需要下载文档的链接是可以获取的。而要爬的文档链接是不能通过网页内容查找到的(水平有限),点击下载按钮知识超链接自身,发现百度文库等很多文档下载类似的网站都是这样的。
在网上找了一个爬酷狗音乐下载音乐的例子,复制其程序运行后,出现报错。
Service chromedriver unexpectedly exited
解决方法:下载chromedriver.exe,
下载链接:http://chromedriver.storage.googleapis.com/index.html
打开你的chrome 浏览器点击帮助在点击关于Googel Chrome,即可看到你浏览器的版本,然后在上面链接中找到对应于你浏览器版本的chromedriver.exe下载
下载后将Chrome.exe文件放置在python 目录下,Chrome浏览器安装目录下,当前文档目录下。其实放在当前文档的目录下就差不多了。--解决了上述问题
运行后又出现Message: Can not connect to the Service chromedriver
解决方法:把hosts(在此目录C:\Windows\System32\drivers\etc)文件里的
127.0.0.1 localhost这行注释去掉就可以。
time 模块
time.ctime()返回当前时间
time.sleep(secs)挂起时间单位秒
个人对网页程序的理解,一个标签代表一个对象。要使用函数、方法是针对整个标签而不是对标签里面的元素。在使用xpath时遇到处理中文字符,可以使用u‘查找内容’,参见博客
http://blog.csdn.net/zcc_0015/article/details/52274996
ActionChains类继承自object类,但是需要为其传入一个driver对象,即ActionChains(driver)
此类常用于模拟鼠标键盘操作。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值