python 爬虫
我写爬虫
坑,都是坑!
展开
-
调用火狐浏览器模拟天猫搜索并遍历一百页商品(速度较慢,但不会遇到反爬机制和验证码)
# -*- coding: utf-8 -*-from selenium import webdriverfrom selenium.webdriver.common.keys import Keysimport hashlibimport randomimport urllibfrom time import ctime,sleepclass ScrapyPage原创 2015-03-04 17:27:50 · 1028 阅读 · 0 评论 -
python 百度地图信息采集实例(包含经纬度)
通过搜索关键词:如佛山市高明市 写字楼,获取该区写字楼信息,由于百度地图搜索最多只能见750条,所以采用了细化搜索词的方法,,原创 2015-05-13 10:31:26 · 5119 阅读 · 1 评论 -
【转帖】使用python爬虫抓站的一些技巧总结:进阶篇
一、gzip/deflate支持 现在的网页普遍支持gzip压缩,这往往可以解决大量传输时间,以VeryCD的主页为例,未压缩版本247K,压缩了以后45K,为原来的1/5。这就意味着抓取速度会快5倍。然而python的urllib/urllib2默认都不支持压缩,要返回压缩格式,必须在request的header里面写明’accept-encoding’,然后读取response后更要检转载 2015-06-12 14:23:26 · 1784 阅读 · 0 评论 -
爬虫过程中经常遇到的一些棘手问题
先写一些已经遇到,并已解决的,后面慢慢增添:1.中文字符串前面加u,让字符串可以正常输出为中文: 有时候我们从其它地方接受的字符串经过艰难跋涉,它变了个样。比如收到的是'\u6253\u602a\u8005'而不是u'\u6253\u602a\u8005'。明明肉眼看起来只需要加个u,但是怎么加呢?>>s = '\u6253\u602a\u8005'>>s'\\u6253\原创 2015-06-25 16:50:55 · 4751 阅读 · 0 评论 -
selenium2.x python 虚拟浏览器 搭建与使用
1.python 安装不做赘述。2.selenium2.x 安装方法。 下载setuptools 【python 的基础包工具】 http://pypi.python.org/pypi/setuptools 下载pip 【python 的安装包管理工具】 https://pypi.python.org/pypi/pip 1、python 的原创 2015-12-02 17:01:47 · 790 阅读 · 0 评论