2015年10月_nigon

11月 10月 04月

原创 mark 一下 PhantomJS

除selenium之外，另一个比较好的动态网页爬取方法是PhantomJS。 PhantomJS不需要渲染页面，开销比selenium小一些，我觉得更适合在服务器上使用。今年貌似推出了2.0版本。等把selenium玩熟了再转战PhantomJS吧。

2015-10-21 10:11:14 217

转载 selenium2.0关于python的常用函数

原地址：http://blog.sina.com.cn/s/blog_b5fe6b270101c8v0.html 新建实例driver = webdriver.Chrome() 1.获取当前页面的Url函数方法：current_url 实例： driver.current_url 2.获取元素坐标方法：location 解释：首先查找到

2015-10-20 10:41:51 574

转载 python保存文件UnicodeEncodeError以及reload（sys）后print失效问题

今天碰到的问题，发现了一个不错的解决办法，记下来。原网址：http://blog.sina.com.cn/s/blog_717a78b90102v0qg.html 在将字符串写入文件时，执行f.write(str)，后台总是报错：UnicodeEncodeError: 'ascii' codec can't encode character u'\u8888' in pos

2015-10-18 20:14:08 1302

原创 python 爬虫小记

本文偏向于个人学习笔记，不一定很强的参考价值。网页爬取分为动态和静态。静态：较为简单，用urllib，urllib2，beautifulsoup之类的组合可以完成。动态：主要思想是模拟人的浏览行为，通过点击等，让页面完全加载出来，解决js等问题。目前比较理想的选择方案是selenium和QtWebKit。 selenium我刚起步，但每次都会打开网页完成一系列操作，如果用于服务

2015-10-17 11:14:20 527

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人