Python爬虫(二)

最新推荐文章于 2021-02-25 00:47:03 发布

piller_wli

最新推荐文章于 2021-02-25 00:47:03 发布

阅读量458

点赞数

文章标签： python爬虫内涵段子抓取

本文链接：https://blog.csdn.net/weixin_42050401/article/details/88263468

版权

python爬虫架构

Python 爬虫架构主要由五个部分组成，分别是

调度器、URL管理器、网页下载器、网页解析器、应用程序。

调度器：相当于一台电脑的CPU，主要负责调度URL管理器、下载器、解析器之间的协调工作。
URL管理器：包括待爬取的URL地址和已爬取的URL地址，防止重复抓取URL和循环抓取URL，实现URL管理器主要用三种方式，通过内存、数据库、缓存数据库来实现。
网页下载器：通过传入一个URL地址来下载网页，将网页转换成一个字符串，网页下载器有urllib2（Python官方基础模块）包括需要登录、代理、和cookie，requests(第三方包)
网页解析器：将一个网页字符串进行解析，可以按照我们的要求来提取出我们有用的信息，也可以根据DOM树的解析方式来解析。网页解析器有正则表达式（直观，将网页转成字符串通过模糊匹配的方式来提取有价值的信息，当文档比较复杂的时候，该方法提取数据的时候就会非常的困难）、html.parser（Python自带的）、beautifulsoup（第三方插件，可以使用Python自带的html.parser进行解析，也可以使用lxml进行解析，相对于其他几种来说要强大一些）、lxml（第三方插件，可以解析 xml 和 HTML），html.parser 和 beautifulsoup 以及 lxml 都是以 DOM 树的方式进行解析的。
应用程序：就是从网页中提取的有用数据组成的一个应用。
爬虫工作模式

python

urllib与urllib2

1.打开目标网站

urllib.urlopen(url[, data[, proxies[, context]]])

去远程请求响应的 url，并返回一个类文件对象。（注意，此处已经发起了远程请求，也就是进行了联网操作，有数量流量）
url ：一个完整的远程资源路径，一般是一个网站。（注意，要包含协议头，例如：http://www.baidu.com/，此处的 http:// 不能省略）
如果该URL没有指明协议类型，或者其协议标识符为file:，则该函数会打开本地文件。如果无法打开远程地址，将触发 IOError 异常。
data ：如果使用的是 http:// 协议，这是一个可选的参数，用于指定一个 POST 请求（默认使用的是 GET 方法）。这个参数必须使用标准的 application/x-www-form-urlencoded 格式。我们可以使用 urlencode() 方法来快速生成。
proxies ：设置代理，有需要的参照官方文档。下面给出官网的例子：

proxies = {‘http’: ‘http://www.someproxy.com:3128’}
加代理
filehandle = urllib.urlopen(some_url, proxies=proxies)
不使用用代理
filehandle = urllib.urlopen(some_url, proxies={})
使用环境中的代理 - 两个版本都是等效的
filehandle = urllib.urlopen(some_url, proxies=None)
filehandle = urllib.urlopen(some_url)

一个小演示

用来爬取百度图片配合正则来使用

f = urllib.urlopen(‘http://www.baidu.com/’)
b = f.read()
p = re.compile(r’<img.?src="//(.?.(?:jpg|gif|png))".*?>’, re.I)
result = p.findall(b)
print result

下载相应资源

urllib.urlretrieve(url[, filename[, reporthook[, data]]])
将给定的 url 下载为本地文件，如果 url指向的是本地的文件，或者是一个有效的缓存对象，那么将不会下载（注意，这里的存在是指下载的目录里有相同的文件了）。
返回一个元祖(filename, headers)，其中filename值的是本地保存的文件名，header指的是上面 info() 方法返回的对象。
url ：目标 url 。
filename ：下载到本地后保存的文件名，可以是决对路径或相对路径形式。如果没有给，将缓存到一个临时文件夹中。
reporthook：一个回调函数，方法会在连接建立时和下载完成时调用这个函数。同时会向函数传递三个参数：1.目前为止下载了多少数据块；2.数据块的大小（单位是字节）；3.文件的总大小；
data：如果使用的是 http:// 协议，这是一个可选的参数，用于指定一个 POST 请求（默认使用的是 GET方法）。这个参数必须使用标准的 application/x-www-form-urlencoded 格式。
我们可以使用urlencode()来快速生成。

urllib.urlencode(query[, doseq])
将一个python的字典快速转换为一个请求的格式，用于上面的 data 属性。

例子

aDict = {‘name’: ‘Georgina Garcia’, ‘hmdir’: ‘~ggarcia’}
print urllib.urlencode(aDict)

附赠一个小爬虫项目:

#-- coding=utf-8 --
“”"
:type 抓取内涵段子-百思不得姐
:type Python 3.7 requests os
:rtype 存入文件
:param http://www.budejie.com/ “”"

import requests from fake_useragent import UserAgent from lxml import
etree

class connotation_paragraph(object):
def init(self):
self.page = 1
self.base_url = “http://www.budejie.com/%d”.format(self.page)
self.html = None
self.count = 200
def worker(self):
    while 1:
        if self.page >= self.count:
            break
        response = requests.get(self.base_url, params=self.get_header())
        data = response.content
        self.html = etree.HTML(data)
        author_pic, author_name, article_title, article_url, article_info = self.get_info()
        print(author_pic, author_name, article_title, article_url)
        with open('./%s.txt' % article_title, 'rw+') as f:
            f.write(author_pic)
            f.write(author_name)
            f.write(article_title)
            f.write(article_url)
        with open('./%s.jpg' % article_title, 'rw+') as f:
            f.write(article_info)

def get_info(self):
    info = etree.HTML(self.html)
    author_pic = info.xpath('//li/div[@class="j-list-user"]/div[@class="u-img"]/a/img/@src')
#作者图片
author_name = info.xpath(’//li/div[@class=“j-list-user”]/div[@class=“u-txt”]/a/text()’)
#作者名字
article_title = info.xpath(’//li//div[@class=“j-r-list-c-desc”]/a/text()’) # 文章标题
article_url = info.xpath(’//li//div[@class=“j-r-list-c-img”]/a/@href’) # 文章链接地址
article_info = info.xpath(’//li//div[@class=“j-r-list-c-img”]/a//img/@src’) # 图片地址
return [author_pic, author_name, article_title, article_url, article_info]
def get_ua(self):
    ua = UserAgent()
    return ua.random

def get_header(self):
    params = {"User-Agent": self.get_ua()}
    return params
if name == ‘main’:
cp = connotation_paragraph()
cp.worker()