Python爬虫学习稿（三）

最新推荐文章于 2024-04-18 14:41:08 发布

PolluxAvenger

最新推荐文章于 2024-04-18 14:41:08 发布

阅读量844

点赞数

分类专栏：读书笔记文章标签： python 爬虫数据结构 url

本文链接：https://blog.csdn.net/tan6600/article/details/50507529

版权

读书笔记专栏收录该内容

57 篇文章 2 订阅

订阅专栏

一、数据结构
我们必须知道，一个网页上存在许多链接，并且如果已经爬取过的页面是不需要再重复进行爬取的，那么爬虫就需要判断，①这个页面是否曾经被爬取过②页面上的这些链接爬取的顺序

解决问题一：
Python自从2.3后提供了一种名为集合（set）的数据结构，和数学上的集合一样，支持交、并、差等运算，set是一种无序且不包含重复元素的数据结构
所以我们可以把爬取过的URL扔进集合中，然后对目前的URL进行判定是否在集合中，如果存在即爬取过，便不再重复爬取

# encoding: utf-8

a = set('abracadabra')
b = set('alacazam')

print(a)
print(b)
c = a | b
print(c)
d = a - b
print(a-b)
e = a & b
print(e)
f = a ^ b
print(f)

可以得到如下结果

{'r', 'd', 'b', 'c', 'a'}
{'l', 'm', 'z', 'c', 'a'}
{'r', 'z', 'd', 'b', 'c', 'a', 'l', 'm'}
{'b', 'd', 'r'}
{'c', 'a'}
{'r', 'z', 'd', 'b', 'l', 'm'}

解决问题二：
Python中提供双端队列（Double-ended queue）简称deque，在collections模块中包含deque类型和defaultdict类型

# encoding: utf-8

from collections import deque

queue = deque(["txb", "hsx", "hxp"])
queue.append("zyz")
queue.append("wcy")
print(queue.popleft())
print(queue)

得到如下结果

txb
deque(['hsx', 'hxp', 'zyz', 'wcy'])

二、一次请求
我们知道在百度搜索一次以后关键词在什么位置，所以我们可以自己构造这次请求来获得这个请求页面

# encoding: utf-8

import urllib
import urllib.request

data = {}
data['word'] = 'one peace'
url_values = urllib.parse.urlencode(data)
url = "http://www.baidu.com/s?"
full_url = url+url_values
a = urllib.request.urlopen(full_url)
data = a.read()
data = data.decode('UTF-8')
print(data)
# 打印出网址：
a.geturl()

可以看出我们已经得到了，我们再尝试通过Google访问一下

# encoding: utf-8

import urllib
import urllib.request

headers={
        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.137 Safari/537.36 LBBROWSER'
        }
data = {}
data['q'] = 'one peace'
url_values = urllib.parse.urlencode(data)
url = "https://www.google.com.hk/search?hl=zh-CN&"
full_url = url+url_values
request = urllib.request.Request(full_url, headers = headers)
a = urllib.request.urlopen(request)

data = a.read()
data = data.decode('UTF-8')
print(data)
# 打印出网址：
a.geturl()