- 博客(5)
- 资源 (6)
- 收藏
- 关注
原创 selenium和PhantomJS爬取动态网页
一、selenium和PhantomJS用法简介selenium是web的自动化测试工具,类似按键精灵,可以直接运行在浏览器上。pip install seleniumPhantomJS是基于webkit的无界面浏览器,使用时,无需输入header等。需要从 phantomjs.org处下载,再将bin目录添加到环境变量path中。1.1 基本使用流
2018-03-25 09:25:04 5154
原创 爬虫之xpath
一、xpath的语法xpath是用来对XML文件进行解析的。针对如下的XML文件: Everyday Italian Giada De Laurentiis 2005 30.00 Harry Potter J K. Rowling 2005 29.99 XQuery Kick Start James M
2018-03-24 14:47:43 370
原创 web客户端授权验证-proxy
对于一般的proxy设置可以参考:静态网页爬取对于web客户端授权的验证如下网页的验证,无法查看网页源码的。比如登录ftp。可以使用如下代码:# -*- coding:utf-8 -*-import urllib.requesttest = "admin"password = "admin"webserver = "192.168.1.1"# 构建一个密码管理对象,可以用来保存和H...
2018-03-23 20:52:55 1248
原创 Ajax网页爬取
Ajax网页,指的是类似豆瓣电影排行这样的页面。鼠标拉到最下面时,会自动加载;同时,网页的url没有改变;https://movie.douban.com/typerank?type_name=%E5%89%A7%E6%83%85&type=11&interval_id=100:90&action=Ajax动态网页,是通过GET的方式,将表单发送给服务器
2018-03-22 21:25:11 1570
原创 静态网页爬取
使用python爬取网页有很多的API可以使用,但由于API太多,导致有时不知选择哪个。有时,我们想要设置proxy,就要用这套API,想要设置cookie,就得用另一套API。故总结了一个较为全面的爬取流程API,可实现timeout、proxy、cookie、header(7个字段的值设置)以及访问网页可能出现的Error。proxy:代理,有些网站使用代理时无法访问。 co...
2018-03-03 16:52:15 1383
EasyX画图.doc
2017-05-31
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人