python爬虫17K小说网资料
爬虫作业要求:抓取小说网站为例,必须抓取一系列小说(不是一部小说)的篇名、作者、出版单位(或首发网站)、出版时间(或网上发布时间)、内容简介、小说封面图画、价格、读者评论或评分等多项信息,并将上述信息组织成表格形式(可以是csv、json、excel等)加以保存。
有一些库可能没有用,当时写的时候参考了很多书籍资料,书籍里用了,我没有用,但是本着懒的原则,我就没有特意把那些没有用到的库删掉。
因为我们老师对注释特别强调,为了不让老师抓错,我就把除了import的代码外的代码都加了注释。
from bs4 import BeautifulSoup
from datetime import datetime
import urllib.request
import requests
import re
from requests import RequestException
import os
from xlwt import *
import xlwt
import xlrd
import pip
import pandas as pd
from lxml import etree
from openpyxl import Workbook
url='https://www.17k.com/all/book/2_22_0_0_0_0_0_1_1.html' #爬取的目标网站
newurl='https://www.17k.com/' #目标网站的主网站
headers={
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36'} #身份表示
#根据得到的url获取html文件
request=urllib.request.Request(url,headers=headers)
for i in range