python selenium 自动下载文档

最新推荐文章于 2024-07-01 17:00:14 发布

rjj_wqq

最新推荐文章于 2024-07-01 17:00:14 发布

阅读量1.5k

点赞数 1

文章标签： gui

本文链接：https://blog.csdn.net/rjj_wqq/article/details/78937347

版权

关于urllib2这个模块，用的时候出错，后来百度了，发现这是python2的模块，python3 中将其改为urllib.request和urllib.error两个模块。使用这两个也能够完成get, open等功能。但是还是直接用python3中的requests模块比较简单，下面网站是关于此模块的一个总结。
http://docs.python-requests.org/zh_CN/latest/user/quickstart.html
看了几个通过爬虫下载文档的例子，但是但是这些需要下载文档的链接是可以获取的。而要爬的文档链接是不能通过网页内容查找到的（水平有限），点击下载按钮知识超链接自身，发现百度文库等很多文档下载类似的网站都是这样的。
在网上找了一个爬酷狗音乐下载音乐的例子，复制其程序运行后，出现报错。
Service chromedriver unexpectedly exited
解决方法：下载chromedriver.exe，
下载链接：http://chromedriver.storage.googleapis.com/index.html
打开你的chrome 浏览器点击帮助在点击关于Googel Chrome，即可看到你浏览器的版本，然后在上面链接中找到对应于你浏览器版本的chromedriver.exe下载
下载后将Chrome.exe文件放置在python 目录下，Chrome浏览器安装目录下，当前文档目录下。其实放在当前文档的目录下就差不多了。--解决了上述问题
运行后又出现Message: Can not connect to the Service chromedriver
解决方法：把hosts(在此目录C:\Windows\System32\drivers\etc)文件里的
127.0.0.1 localhost这行注释去掉就可以。
time 模块
time.ctime()返回当前时间
time.sleep(secs)挂起时间单位秒
个人对网页程序的理解，一个标签代表一个对象。要使用函数、方法是针对整个标签而不是对标签里面的元素。在使用xpath时遇到处理中文字符，可以使用u‘查找内容’，参见博客
http://blog.csdn.net/zcc_0015/article/details/52274996
ActionChains类继承自object类，但是需要为其传入一个driver对象，即ActionChains(driver)
此类常用于模拟鼠标键盘操作。

最低0.47元/天解锁文章

rjj_wqq

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python selenium 自动下载文档

关于urllib2这个模块，用的时候出错，后来百度了，发现这是python2的模块，python3 中将其改为urllib.request和urllib.error两个模块。使用这两个也能够完成get, open等功能。但是还是直接用python3中的requests模块比较简单，下面网站是关于此模块的一个总结。http://docs.python-requests.org/zh_CN/lat
复制链接

扫一扫