- 博客(4)
- 收藏
- 关注
原创 mark 一下 PhantomJS
除selenium之外,另一个比较好的动态网页爬取方法是PhantomJS。 PhantomJS不需要渲染页面,开销比selenium小一些,我觉得更适合在服务器上使用。今年貌似推出了2.0版本。 等把selenium玩熟了再转战PhantomJS吧。
2015-10-21 10:11:14 217
转载 selenium2.0关于python的常用函数
原地址:http://blog.sina.com.cn/s/blog_b5fe6b270101c8v0.html 新建实例driver = webdriver.Chrome() 1.获取当前页面的Url函数 方法:current_url 实例: driver.current_url 2.获取元素坐标 方法:location 解释:首先查找到
2015-10-20 10:41:51 574
转载 python保存文件UnicodeEncodeError以及reload(sys)后print失效问题
今天碰到的问题,发现了一个不错的解决办法,记下来。 原网址:http://blog.sina.com.cn/s/blog_717a78b90102v0qg.html 在将字符串写入文件时,执行f.write(str),后台总是报错:UnicodeEncodeError: 'ascii' codec can't encode character u'\u8888' in pos
2015-10-18 20:14:08 1302
原创 python 爬虫小记
本文偏向于个人学习笔记,不一定很强的参考价值。 网页爬取分为动态和静态。 静态:较为简单,用urllib,urllib2,beautifulsoup之类的组合可以完成。 动态:主要思想是模拟人的浏览行为,通过点击等,让页面完全加载出来,解决js等问题。目前比较理想的选择方案是selenium和QtWebKit。 selenium我刚起步,但每次都会打开网页完成一系列操作,如果用于服务
2015-10-17 11:14:20 527
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人