Python爬虫诗词名句网教程_如何爬取诗词名句网的古诗-CSDN博客

本文链接：https://blog.csdn.net/m0_62887528/article/details/122067914

爬取的基本步骤

在这里插入图片描述

一、明确需求

爬取网站内的小说名

小说内容

二、代码讲解

下面根据代码，从浅入深给大家讲解分析一遍

-- codeing = utf-8 --，开头的这个是设置编码为utf-8 ，写在开头，防止乱码

然后下面 import就是导入一些库，做做准备工作

import os
import jieba
from wordcloud import WordCloud
import matplotlib.pyplot as plt
import requests
import SQL
import pinyin
from bs4 import BeautifulSoup
from pymysql import *

首先我们要伪装成一个浏览器，再去访问我们需要爬取的网站

百度百科：
User Agent中文名为用户代理，简称 UA，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

以Chrome浏览器为例，在浏览器地址栏输入

在这里插入图片描述

可以看到，浏览器User-Agent为Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36

下面是详细的代码

        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36 Edg/96.0.1054.62'
        }
        url = 'https://www.shicimingju.com/book/%s.html'
        name_p = pinyin.pinyin(name)

我们先建立起一个数据表用来保存