python爬虫(1)

ningmonguo

于 2018-03-13 20:03:51 发布

阅读量161

点赞数 1

分类专栏：学习总结

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/at351291/article/details/79545776

版权

学习总结专栏收录该内容

10 篇文章 0 订阅

订阅专栏

1，什么是网络爬虫？

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。

2，网络爬虫的运行原理。

a) 通用爬虫的原理；

定义起始url进行爬取，将网页中的url放入url队列中，同时将内容抓取，判断是否还有url，如果还有就继续爬，没有就结束了。

b) 聚焦爬虫的原理；

定义抓取内容，然后对抓取内筒进行一个过滤后爬取，之后与通用爬虫一样。

3，正则表达式。

import re à 导入正则表达式包

data = re.search(“a”,”a”); à 存在匹配就返回一个匹配对象。

print data.group(0); à 打印得到结果

*正则表达式：

\n –>(匹配)回车 \w à任意字母数字或者下划线\dà数字 \s空格 \W 与\w相反

\S 非空格 a[jsz]n à 中间3个字母取任意一个。 ^开始位置 .任意字符 $ 结束位置

*表示一次两次或者多次？一次或者0次+ 一次或者多次t{n} t出现了n次 t{m,n}出现了m到n次 ()输出的就是其中的内容， |或者

其他的在基础中已将讲过了，就不再罗嗦。

4， urllib包与urllib2包

Python中包含了两个网络模块，分别是urllib与urllib2，urllib2是urllib的升级版，拥有更强大的功能。urllib，让我们可以像读文件一样，读取http与ftp。而urllib2，则在urllib的基础上，提供了更多的接口，如cookie、代理、认证等更强大的功能。值得一提的就是python3之后，urllib已经替代了urllib2，也就是python中只有urllib。

l 常用函数。

urlopen(网址，timeout)#就是打开路径这个网址，返回一个文件的句柄，这里要讲下，timeout参数设置超时时间，若时间超过就抛异常。

urlretrieve(“网址”,”本地路径”)#将该网址的网页文件爬到并报存到这个路径

urlcleanup()#清理缓存，在操作过程中都存在缓存。

info()#显示当前环境的一些信息。

getcode()#获得返回的码，比如200,404,303什么的。

geturl()#获取url

queto()#对中文进行一个编码，向url中

5，简单爬虫。

Import re

import urllib.request

#from urllib import request

data = urllib.request.openurl(‘http://www.XXX.com’)#此处网址是随意写的。得到的是一个网页文件。需要注意的是http不能写成https，因为https是一个安全的版本，python无法爬取相关内容。

Datainf = data.read()

Datainf = datainf.decode(‘utf-8’)

Pat = ‘(*)’ #正在表达式

Re.compile(pat,datainf)#就可以匹配出相关的内容,返回的结果是一个数组

6，模拟请求方式的爬虫。

a) get请求方式

get请求就是在url后面加入参数传入后台的数据。

data = “中文”

data =urllib.request.queto(data);

url =”http://www.baidu.com/s?wd=“+data

urllib.request.urlopen(url)

就爬下来了百度搜索中文的页面数据。

b) post请求方式。

importurllib.parse #用于封装post表单的数据

import urllib.request#导入urllib库中的request模块

url = http://www.baidu.com/

mydata =urllib.parse.urlencode( #设置post的表单

{“name”:”denglu”,#登录账号

“pass”:”11233” #密码

}#字典类型

).encode(“utf-8”)#采用utf-8编码方式

req = urllib.request.Request(url,mydata)#封装请求

data =urllib.request.urlopen(req).read()#获取网页信息

7，异常处理。

主要的异常有URLError与HTTPError，其中HTTPError是子类。

URLError：a，服务器出错；b，禁止访问；c，没网；d，HTTPError

import urllib.error#导入error异常包

importurllib.request #导入request请求包

try:

urllib.request.rulopen(“http://blog.csdn.net”)

excepturllib.error.URLError as e: #捕捉异常

if hasattr(e,”code”) #拿出异常码

print(e,code)

ifhasattr(e,”reason”) #拿出异常原因

print(r.reason)

输出： 403

Forbidden

8，浏览器伪装技术。

将请求伪装成浏览器发出的请求。

import urllib.request

url = “http://www.baidu.com”

headers = (“User-Agent”,” Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/62.0.3202.89 Safari/537.36”)#元组，设置浏览器的标识，这是去浏览器header里面复制的标识。

opener = urllib.request.build_opener() #创建一个opener，我理解为爬虫句柄

opener.addheaders=[headers] #将标识放入爬虫中设置为头

data = opener.open(url).read() #爬取

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫(1)

1，什么是网络爬虫？网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。2，网络爬虫的运行原理。a) 通用爬虫的原理；定义起始url进行爬取，将网页中的url放入url队列中，同时将内容抓取，判断是否还有url，如果还有就继续爬，没有就结束了。b) 聚焦爬虫的原理；定义抓取内容，...
复制链接

扫一扫

专栏目录

ningmonguo CSDN认证博客专家 CSDN认证企业博客

码龄8年

23: 原创

14万+: 周排名

120万+: 总排名

2万+: 访问

: 等级

459: 积分

16: 粉丝

6: 获赞

6: 评论

6: 收藏

私信

关注

热门文章

分类专栏

最新评论

1和0.9的循环关系
weixin_54230918: 1/3 等于 0.33333... 无限循环就有问题，这个无限循环到底是无限多少，一个无限循环数是怎么乘以3的，0.9999...无线循环是从左往右乘的吧
数组和指针与及位域
ningmonguo 回复 woke丶: 阅
数组和指针与及位域
woke丶: 有没有点格式
关于双指针
ningmonguo 回复 woke丶: woc
关于双指针
woke丶: 哇 66666666666666666666666666666666666666666666666666666666666666666666666

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。