自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 mark 一下 PhantomJS

除selenium之外,另一个比较好的动态网页爬取方法是PhantomJS。 PhantomJS不需要渲染页面,开销比selenium小一些,我觉得更适合在服务器上使用。今年貌似推出了2.0版本。 等把selenium玩熟了再转战PhantomJS吧。 

2015-10-21 10:11:14 217

转载 selenium2.0关于python的常用函数

原地址:http://blog.sina.com.cn/s/blog_b5fe6b270101c8v0.html 新建实例driver = webdriver.Chrome() 1.获取当前页面的Url函数 方法:current_url 实例: driver.current_url 2.获取元素坐标 方法:location 解释:首先查找到

2015-10-20 10:41:51 574

转载 python保存文件UnicodeEncodeError以及reload(sys)后print失效问题

今天碰到的问题,发现了一个不错的解决办法,记下来。 原网址:http://blog.sina.com.cn/s/blog_717a78b90102v0qg.html    在将字符串写入文件时,执行f.write(str),后台总是报错:UnicodeEncodeError: 'ascii' codec can't encode character u'\u8888' in pos

2015-10-18 20:14:08 1302

原创 python 爬虫小记

本文偏向于个人学习笔记,不一定很强的参考价值。 网页爬取分为动态和静态。 静态:较为简单,用urllib,urllib2,beautifulsoup之类的组合可以完成。 动态:主要思想是模拟人的浏览行为,通过点击等,让页面完全加载出来,解决js等问题。目前比较理想的选择方案是selenium和QtWebKit。 selenium我刚起步,但每次都会打开网页完成一系列操作,如果用于服务

2015-10-17 11:14:20 527

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除