关于urllib2这个模块,用的时候出错,后来百度了,发现这是python2的模块,python3 中将其改为urllib.request和urllib.error两个模块。使用这两个也能够完成get, open等功能。但是还是直接用python3中的requests模块比较简单,下面网站是关于此模块的一个总结。
http://docs.python-requests.org/zh_CN/latest/user/quickstart.html
看了几个通过爬虫下载文档的例子,但是但是这些需要下载文档的链接是可以获取的。而要爬的文档链接是不能通过网页内容查找到的(水平有限),点击下载按钮知识超链接自身,发现百度文库等很多文档下载类似的网站都是这样的。
在网上找了一个爬酷狗音乐下载音乐的例子,复制其程序运行后,出现报错。
Service chromedriver unexpectedly exited
解决方法:下载chromedriver.exe,
下载链接:http://chromedriver.storage.googleapis.com/index.html
打开你的chrome 浏览器点击帮助在点击关于Googel Chrome,即可看到你浏览器的版本,然后在上面链接中找到对应于你浏览器版本的chromedriver.exe下载
下载后将Chrome.exe文件放置在python 目录下,Chrome浏览器安装目录下,当前文档目录下。其实放在当前文档的目录下就差不多了。--解决了上述问题
运行后又出现Message: Can not connect to the Service chromedriver
解决方法:把hosts(在此目录C:\Windows\System32\drivers\etc)文件里的
127.0.0.1 localhost这行注释去掉就可以。
time 模块
time.ctime()返回当前时间
time.sleep(secs)挂起时间单位秒
个人对网页程序的理解,一个标签代表一个对象。要使用函数、方法是针对整个标签而不是对标签里面的元素。在使用xpath时遇到处理中文字符,可以使用u‘查找内容’,参见博客
http://blog.csdn.net/zcc_0015/article/details/52274996
ActionChains类继承自object类,但是需要为其传入一个driver对象,即ActionChains(driver)
此类常用于模拟鼠标键盘操作。
python selenium 自动下载文档
最新推荐文章于 2024-07-01 17:00:14 发布