python爬虫(1)

1,  什么是网络爬虫?

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。

2,  网络爬虫的运行原理。

a)      通用爬虫的原理;

定义起始url进行爬取,将网页中的url放入url队列中,同时将内容抓取,判断是否还有url,如果还有就继续爬,没有就结束了。

b)      聚焦爬虫的原理;

定义抓取内容,然后对抓取内筒进行一个过滤后爬取,之后与通用爬虫一样。

3,  正则表达式。

import re à 导入正则表达式包

data = re.search(“a”,”a”); à 存在匹配就返回一个匹配对象。

print data.group(0); à 打印得到结果

*正则表达式:

\n –>(匹配)回车 \w à任意字母数字或者下划线\dà数字 \s空格 \W 与\w相反

\S 非空格  a[jsz]n à 中间3个字母取任意一个。 ^开始位置 .任意字符 $ 结束位置

*表示一次两次或者多次?一次或者0次+ 一次或者多次t{n} t出现了n次  t{m,n}出现了m到n次  ()输出的就是其中的内容, |或者

其他的在基础中已将讲过了,就不再罗嗦。

4,  urllib包与urllib2包

Python中包含了两个网络模块,分别是urllib与urllib2,urllib2是urllib的升级版,拥有更强大的功能。urllib,让我们可以像读文件一样,读取http与ftp。而urllib2,则在urllib的基础上,提供了更多的接口,如cookie、代理、认证等更强大的功能。值得一提的就是python3之后,urllib已经替代了urllib2,也就是python中只有urllib。

l  常用函数。

urlopen(网址,timeout)#就是打开路径这个网址,返回一个文件的句柄,这里要讲下,timeout参数设置超时时间,若时间超过就抛异常。

urlretrieve(“网址”,”本地路径”)#将该网址的网页文件爬到并报存到这个路径

urlcleanup()#清理缓存,在操作过程中都存在缓存。

info()#显示当前环境的一些信息。

getcode()#获得返回的码,比如200,404,303什么的。

geturl()#获取url

queto()#对中文进行一个编码,向url中

5,  简单爬虫。

Import re

import urllib.request

#from urllib import request

data = urllib.request.openurl(‘http://www.XXX.com’)#此处网址是随意写的。得到的是一个网页文件。需要注意的是http不能写成https,因为https是一个安全的版本,python无法爬取相关内容。

Datainf = data.read()

Datainf = datainf.decode(‘utf-8’)

Pat = ‘(*)’ #正在表达式

 Re.compile(pat,datainf)#就可以匹配出相关的内容,返回的结果是一个数组

6,  模拟请求方式的爬虫。

a)      get请求方式

get请求就是在url后面加入参数传入后台的数据。

data = “中文”

data =urllib.request.queto(data);

url =”http://www.baidu.com/s?wd=“+data

urllib.request.urlopen(url)

就爬下来了百度搜索中文的页面数据。

b)      post请求方式。

importurllib.parse #用于封装post表单的数据

import urllib.request#导入urllib库中的request模块

url = http://www.baidu.com/

mydata =urllib.parse.urlencode( #设置post的表单

{“name”:”denglu”,#登录账号

“pass”:”11233” #密码

}#字典类型

).encode(“utf-8”)#采用utf-8编码方式

req = urllib.request.Request(url,mydata)#封装请求

data =urllib.request.urlopen(req).read()#获取网页信息

7,  异常处理。

主要的异常有URLError与HTTPError,其中HTTPError是子类。

URLError:a,服务器出错;b,禁止访问;c,没网;d,HTTPError

import urllib.error#导入error异常包

importurllib.request #导入request请求包

try:

urllib.request.rulopen(“http://blog.csdn.net”)

excepturllib.error.URLError as e: #捕捉异常

if hasattr(e,”code”) #拿出异常码

 print(e,code)

ifhasattr(e,”reason”) #拿出异常原因

 print(r.reason)

输出:    403

Forbidden

8,  浏览器伪装技术。

将请求伪装成浏览器发出的请求。

import urllib.request

url = “http://www.baidu.com”

headers = (“User-Agent”,” Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/62.0.3202.89 Safari/537.36”)#元组,设置浏览器的标识,这是去浏览器header里面复制的标识。

opener = urllib.request.build_opener() #创建一个opener,我理解为爬虫句柄

opener.addheaders=[headers] #将标识放入爬虫中设置为头

data = opener.open(url).read() #爬取

 

 

 

 

 


  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值