python爬虫——爬取起点中文网作品信息

最新推荐文章于 2024-01-13 13:02:45 发布

原创最新推荐文章于 2024-01-13 13:02:45 发布

· 1.2w 阅读

63 ·

版权

文章标签：

#python #p

python爬虫专栏收录该内容

4 篇文章

订阅专栏

首先打开起点中文网
这里写图片描述
点开红圈内的全部作品选项，本博客爬取这里面的作品信息。

接下来爬取所有作品信息，注意，不仅仅只是该面的所有作品信息，而是全部作品信息。
网页下面有跳转其他页的选项。
我们需要找到网址规律，用来编写一个自动遍历所有页面网址的程序。
开始进来是这样的网址
https://www.qidian.com/all
但是点击下面的跳页选项中的1,会发现变成这样子了。
https://www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0&page=1
这里对URL进行了隐藏伪装。再看其他页面的网址，这规律轻轻松松就能找到。
页面网址固定部分是https://www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0&page=
唯一变化的是page的参数，页数就是参数。
通过改变页数，就能遍历不同网页里的作品信息。

download主函数

把爬取到的信息存入csv文件中，爬取的信息为：作品、作者、类型、状态、简介。
代码如下：

import csv


def download(filename, pages=1):
    # 这里是固定部分的URL
    url = 'https://www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0&page='

    fileheader = ['作品', '作者', '类型', '状态', '简介']
    with open(filename, 'w', newline='', encoding='gb18030') as f:
        csv_writer = csv.writer(f)
        # 把fileheader的内容写入csv文件中
        csv_writer.writerow(fileheader)

        # 开始遍历每个网页，爬取作品信息
        for page in range(1, pages + 1):
            page_url = url + str(page)
            # 用find_contents函数爬取当前网页的作品信息
            contents = find_contents(page_url)
            # 把contents的内容通过save_contents函数存入csv文件中
            save_contents(contents)

download是爬虫主函数，其中用到的find_contents和save_contents函数还没有定义。

save_contents函数

该函数的作用是把爬取的一个网页的作品信息列表存进指定的CSV文件中。

def save_contents(contents, writer):
    # 从contents中取出一个作品信息content,写入csv文件中
    for content in contents:
        writer.writerow(content)

find_contents函数

该函数是特别重要的函数，运用正则表达式来爬去网页的作品信息。
需要额外添加两个库。

import urllib.request
import re

通过鼠标移到想要的信息上，右击找打检查或审查元素选项，找到关键代码，组建严格的正则表达式。
代码如下：

def find_contents(url):
    # 打开网页，获取网站反应
    response = urllib.request.urlopen(url)
    # 读取网页源码
    html = response.read().decode('utf-8')

    # 编写正则表达式
    book_name = r'<a href=".*?" target="_blank" data-eid=".*?" data-bid="\d*?">(.*?)</a>'
    book_author = r'<a class="name" href=".*?" data-eid=".*?" target="_blank">(.*?)</a>'
    book_type = r'<a href=".*?" target="_blank" data-eid=".*?">(.*?)</a>'
    book_state = r'<span >(.*?)</span>'
    book_intro = r'<p class="intro">(.*?)</p>'

    informations = book_name + r'.*?' + book_author + r'.*?' + book_type + r'.*?' + book_state + r'.*?' + book_intro
    # 返回一个正则表达式对象
    reg = re.compile(informations, re.S)
    # 开始查找所有信息
    contents = re.findall(reg, html)

    return contents

然后结合以上代码，就可以爬取信息，但是本身还有不少缺陷，这只是一个最初的爬虫。
首先修改一下find_contents函数
返回的数据，简介没有去除空格，类型也需要稍加修改。
代码如下：

def find_contents(url):
    # 打开网页，获取网站反应
    response = urllib.request.urlopen(url)
    # 读取网页源码
    html = response.read().decode('utf-8')

    # 编写正则表达式
    book_name = r'<a href=".*?" target="_blank" data-eid=".*?" data-bid="\d*?">(.*?)</a>'
    book_author = r'<a class="name" href=".*?" data-eid=".*?" target="_blank">(.*?)</a>'
    book_type1 = r'<a href=".*?" target="_blank" data-eid=".*?">(.*?)</a>'
    # 新增一个类型
    book_type2 = r'<a class="go-sub-type" data-typeid="\d*?" data-subtypeid="\d*?" href="javascript:" data-eid=".*?">(.*?)</a>'
    book_state = r'<span >(.*?)</span>'
    book_intro = r'<p class="intro">(.*?)</p>'

    informations = book_name + r'.*?' + book_author + r'.*?' + book_type1 + \
        r'.*?' + book_type2 + r'.*?' + book_state + r'.*?' + book_intro
    # 返回一个正则表达式对象
    reg = re.compile(informations, re.S)
    # 开始查找所有信息
    contents_list = re.findall(reg, html)
    contents = []

    # 遍历每一个作品信息，进行修改
    for content in contents_list:
        content = list(content)
        new_content = content[:2]
        new_content.append(content[2] + '-' + content[3])
        new_content.append(content[4])
        new_content.append(content[5].strip())
        contents.append(new_content)

    return contents

改进程序

代码差不多了，可以直接运行程序查看效果，但是接着就会发现，爬虫爬取频繁了，网页会被禁止访问，因为网站会有防止爬虫的功能。
那么我们需要加入几个代理ip和用户代理(User-Agent)。
那么从何处改进呢？
首先要理解代理ip和用户代理，我们需要用他们来打开指定的网页。故而在打开网页时就需要调用他们。
打开网址函数在find_contents函数中使用到，所以我们把find_contents函数改进下。我们把代开网址与正则表达式找信息这两块操作分成两个函数来写。

新增一个open_url函数

该函数作用是，（用代理ip和用户代理)打开网址，返回网页源码信息。

注：自己的用户代理可以在浏览器地址栏中输入javascript:alert(navigator.userAgent)查看。
注：免费的代理ip可以网上查找。
也可以只用一个自己的用户代理，但是为了保险，用了多个用户代理。

首先需要新增一个模块

import random

open_url函数如下：

def open_url(url):
    # 代理ip列表
    proxy_list = ['219.138.58.114:3128', '61.135.217.7:80', '101.201.79.172:808', '122.114.31.177:808']
    # 用户代理列表
    user_list = ['Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36',
                 'User-Agent:Mozilla/5.0(compatible;MSIE9.0;WindowsNT6.1;Trident/5.0',
                 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16',
                 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16']

    index = random.randint(0, 3)
    # 使用代理ip的必要函数
    proxy_support = urllib.request.ProxyHandler({'http': proxy_list[index]})
    opener = urllib.request.build_opener(proxy_support)
    urllib.request.install_opener(opener)
    # 添加用户代理
    opener.addheaders = [('User-Agent', user_list[index])]
    response = urllib.request.urlopen(url)
    html = response.read()

    return html

注意，程序中的代理ip和用户代理需要自己修改，本博主的可能已经过时。
至于find_contents只需要稍微修改一番即可。
把其中的：

response = urllib.request.urlopen(url)
html = response.read().decode('utf-8')

改为：

html = open_url(url).decode('utf-8')

程序代码

import urllib.request
import re
import csv
import random

# 打开网页
def open_url(url):
    # 代理ip列表
    proxy_list = ['219.138.58.114:3128', '61.135.217.7:80', '101.201.79.172:808', '122.114.31.177:808']
    # 用户代理列表
    user_list = ['Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36',
                 'User-Agent:Mozilla/5.0(compatible;MSIE9.0;WindowsNT6.1;Trident/5.0',
                 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16',
                 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16']

    index = random.randint(0, 3)
    # 使用代理ip的必要函数
    proxy_support = urllib.request.ProxyHandler({'http': proxy_list[index]})
    opener = urllib.request.build_opener(proxy_support)
    urllib.request.install_opener(opener)
    # 添加用户代理
    opener.addheaders = [('User-Agent', user_list[index])]
    response = urllib.request.urlopen(url)
    html = response.read()

    return html

# 运用正则表达式提出作品信息
def find_contents(url):
    html = open_url(url).decode('utf-8')

    # 编写正则表达式
    book_name = r'<a href=".*?" target="_blank" data-eid=".*?" data-bid="\d*?">(.*?)</a>'
    book_author = r'<a class="name" href=".*?" data-eid=".*?" target="_blank">(.*?)</a>'
    book_type1 = r'<a href=".*?" target="_blank" data-eid=".*?">(.*?)</a>'
    # 新增一个类型
    book_type2 = r'<a class="go-sub-type" data-typeid="\d*?" data-subtypeid="\d*?" href="javascript:" data-eid=".*?">(.*?)</a>'
    book_state = r'<span >(.*?)</span>'
    book_intro = r'<p class="intro">(.*?)</p>'

    informations = book_name + r'.*?' + book_author + r'.*?' + book_type1 + \
        r'.*?' + book_type2 + r'.*?' + book_state + r'.*?' + book_intro
    # 返回一个正则表达式对象
    reg = re.compile(informations, re.S)
    # 开始查找所有信息
    contents_list = re.findall(reg, html)
    contents = []

    # 遍历每一个作品信息，进行修改
    for content in contents_list:
        content = list(content)
        new_content = content[:2]
        new_content.append(content[2] + '-' + content[3])
        new_content.append(content[4])
        new_content.append(content[5].strip())
        contents.append(new_content)

    return contents

# 保存作品信息
def save_contents(contents, writer):
    # 从contents中取出一个作品信息content,写入csv文件中
    for content in contents:
        writer.writerow(content)


# 主函数
def download(filename, pages=1):
    # 这里是固定部分的URL
    url = 'https://www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0&page='

    fileheader = ['作品', '作者', '类型', '状态', '简介']
    with open(filename, 'w', newline='', encoding='gb18030') as f:
        csv_writer = csv.writer(f)
        # 把fileheader的内容写入csv文件中
        csv_writer.writerow(fileheader)

        # 开始遍历每个网页，爬取作品信息
        for page in range(1, pages + 1):
            page_url = url + str(page)
            # 用find_contents函数爬取当前网页的作品信息
            contents = find_contents(page_url)
            # 把contents的内容通过save_contents函数存入csv文件中
            save_contents(contents, csv_writer)


if __name__ == '__main__':
    download('test.csv', 10)