爬虫
文章平均质量分 79
garnetreds7
这个作者很懒,什么都没留下…
展开
-
Scrapy 学习
Scrapy安装在Windows cmd中输入命令: pip install scrapy就会自动下载安装Scrapy。等待安装完成就能使用。也可以在cmd中输入以下命令,来查看是否安装成功: scrapy -h这个命令将会列出可用的若干命令,主要包括: startproject:创建一个新项目 genspider:根据模版生成一个新爬虫 crawl:执行爬虫 sh原创 2016-10-09 15:56:20 · 306 阅读 · 0 评论 -
Python爬虫基础-1
一、URLURL(Uniform Resource Locator),统一资源定位符。采用URL可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等。 URL的一般格式为(带方括号[]的为可选项): protocol :// hostname[:port] / path / [;parameters][?query]#fragmentURL的格式由三部分组成: 1.第一原创 2016-10-07 17:35:23 · 226 阅读 · 0 评论 -
Python爬虫基础-2
异常处理问题当urlopen不能够处理一个req时,产生urlError。不过通常的Python APIs异常如ValueError,TypeError等也会同时产生。HTTPError是urlError的子类,通常在特定HTTP URLs中产生。URLError通常,URLError在没有网络连接(没有路由到特定服务器),或者服务器不存在的情况下产生。这种情况下,异常同样会带有”reason”属性原创 2016-10-07 18:57:49 · 291 阅读 · 0 评论 -
Python爬虫基础-3
urllib2内容扩充urlopen返回的应答对象response(或者HTTPError实例)有两个很有用的方法info()和geturl()geturl()很有用!返回获取的真实的URL,因为urlopen(或者opener对象使用的)或许会有重定向,获取的URL或许跟请求URL不同。 以一个超级链接为例,来比较一下原始URL和重定向的链接:from urllib2 import Reques原创 2016-10-07 20:10:52 · 250 阅读 · 0 评论 -
Python爬虫基础-4
urllib2使用细节Proxy 的设置urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。如果想在程序中明确控制 Proxy 而不受环境变量的影响,可以使用代理。 简单的代理:import urllib2enable_proxy = Trueproxy_handler = urllib2.ProxyHandler({"http" : 'http://som原创 2016-10-07 20:20:10 · 207 阅读 · 0 评论 -
Python爬虫基础-5(正则表达式)
Python支持的正则表达式元字符和语法: 语法 说明 表达式实例 完整匹配的字符串 字符 一般字符 匹配自身 abc abc . 匹配除换行符”\n”之外的任意字符 a.c abc \ 转义字符,使后一个字符改变原来的意思 a\\c a\c […] 字符集。对应的位置可以是字符集中的任意字符。\字符集中的字原创 2016-10-07 23:25:14 · 416 阅读 · 0 评论