python爬虫17K小说网资料

最新推荐文章于 2024-04-21 08:52:18 发布

parist wan

最新推荐文章于 2024-04-21 08:52:18 发布

阅读量792

点赞数 2

文章标签： python

本文链接：https://blog.csdn.net/ParisWan/article/details/107587737

版权

python爬虫17K小说网资料

爬虫作业要求：抓取小说网站为例，必须抓取一系列小说（不是一部小说）的篇名、作者、出版单位（或首发网站）、出版时间（或网上发布时间）、内容简介、小说封面图画、价格、读者评论或评分等多项信息，并将上述信息组织成表格形式（可以是csv、json、excel等）加以保存。

有一些库可能没有用，当时写的时候参考了很多书籍资料，书籍里用了，我没有用，但是本着懒的原则，我就没有特意把那些没有用到的库删掉。

因为我们老师对注释特别强调，为了不让老师抓错，我就把除了import的代码外的代码都加了注释。

from bs4 import BeautifulSoup
from datetime import datetime
import urllib.request
import requests
import re
from requests import RequestException
import os
from xlwt import *
import xlwt
import xlrd
import pip
import pandas as pd
from lxml import etree
from openpyxl import Workbook
url='https://www.17k.com/all/book/2_22_0_0_0_0_0_1_1.html'  #爬取的目标网站
newurl='https://www.17k.com/'   #目标网站的主网站
headers={
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36'}   #身份表示
#根据得到的url获取html文件
request=urllib.request.Request(url,headers=headers)
for i in range

最低0.47元/天解锁文章

parist wan

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python爬虫17K小说网资料

爬虫作业要求：抓取小说网站为例，必须抓取一系列小说（不是一部小说）的篇名、作者、出版单位（或首发网站）、出版时间（或网上发布时间）、内容简介、小说封面图画、价格、读者评论或评分等多项信息，并将上述信息组织成表格形式（可以是csv、json、excel等）加以保存。
复制链接

扫一扫