python爬虫开发：从入门到实战学习笔记（三）简单的网页爬虫开发

最新推荐文章于 2023-04-24 11:43:36 发布

木灬U6770

最新推荐文章于 2023-04-24 11:43:36 发布

阅读量285

点赞数 1

分类专栏：笔记 python爬虫开发笔记文章标签：爬虫 python request get

本文链接：https://blog.csdn.net/aaalalula/article/details/119388352

版权

笔记同时被 2 个专栏收录

7 篇文章 1 订阅

订阅专栏

python爬虫开发笔记

3 篇文章 2 订阅

订阅专栏

一、Python的第三方库 requests

网页有很多种打开方式，最常见的是GET方式和POST方式。在浏览器里面可以直接通过输入网址访问的页面，就是使用了GET方式。还有一些页面，只能通过从另一个页面单击某个链接或者某个按钮以后跳过来，不能直接通过在浏览器输入网址访问，这种网页就是使用了POST方式。

1、GET方式

html_str = requests.get('网址').content.decode('编码格式')

编码格式有几十种，但最常见的是“UTF-8”“GBK”“GB2312”和“GB18030”。

2、POST方式

data = {'key1': 'valuel',
			'key2': 'value2'}
html_str = requests.post('网址', data=data).content.decode('编码格式')

data这个字典的内容和项数需要根据实际情况修改，Key和Value在不同的网站是不一样的。而做爬虫，构造这个字典是任务之一。
提交的内容需要是JSON格式的，因此post()方法的参数需要进行一些修改：json=data

二、多线程爬虫

multiprocessing.dummy

在这里插入图片描述
线程池的map()方法接收两个参数，第1个参数是函数名，第2个参数是一个列表

线程选择：在需要操作的动作数量不大的时候，单线程和多线程两种方式的性能没有什么区别，但是一旦动作的数量大量增长，多线程的效率提升就会下降，甚至比单线程还差。而到那个时候，只有异步操作才是解决问题的办法。

三、常见搜索算法

深度优先
广度优先

四、阶段案例——小说网站爬虫开发

从https://www.kanunu8.com/book3/6633爬取《球状闪电》所有章节的网址，再通过一个多线程爬虫将每一章的内容爬取下来。在本地创建一个“球状闪电”文件夹，并将小说中的每一章分别保存到这个文件夹中。

import requests
import re
import os

start_url = 'https://www.kanunu8.com/book3/6633/'
html_str = requests.get(start_url).content.decode('GBK')
# 常见的编码格式“UTF-8”“GBK”“GB2312”和“GB18030”


def get_toc(html):
    toc_url_list = []
    toc_block = re.findall('正文(.*?)</tbody>', html, re.S)[0]
    toc_url = re.findall('href="(.*?)"', toc_block, re.S)
    for url in toc_url:
        toc_url_list.append(start_url+url)
    return toc_url_list


def get_article(html):
    chapter_name = re.search('size="4">(.*?)<', html, re.S).group(1)
    text_block = re.search('<p>(.*?)</p>', html, re.S).group(1)
    text_block = text_block.replace('<br />', '')
    return chapter_name, text_block


def save(chapter, article):
    os.makedirs('球状闪电', exist_ok=True)
    with open(os.path.join('球状闪电', chapter+'.txt'), 'w', encoding='utf-8') as f:
        f.write(article)


if __name__ == '__main__':
    html_list = get_toc(html_str)
    print('开始')
    for html_str_temp in html_list:
        html_str = requests.get(html_str_temp).content.decode('GBK')
        chapter_str, article_str = get_article(html_str)
        save(chapter_str, article_str)
    print('完成')