python爬虫17K小说网资料

python爬虫17K小说网资料

爬虫作业要求:抓取小说网站为例,必须抓取一系列小说(不是一部小说)的篇名、作者、出版单位(或首发网站)、出版时间(或网上发布时间)、内容简介、小说封面图画、价格、读者评论或评分等多项信息,并将上述信息组织成表格形式(可以是csv、json、excel等)加以保存。

有一些库可能没有用,当时写的时候参考了很多书籍资料,书籍里用了,我没有用,但是本着懒的原则,我就没有特意把那些没有用到的库删掉。

因为我们老师对注释特别强调,为了不让老师抓错,我就把除了import的代码外的代码都加了注释。

from bs4 import BeautifulSoup
from datetime import datetime
import urllib.request
import requests
import re
from requests import RequestException
import os
from xlwt import *
import xlwt
import xlrd
import pip
import pandas as pd
from lxml import etree
from openpyxl import Workbook
url='https://www.17k.com/all/book/2_22_0_0_0_0_0_1_1.html'  #爬取的目标网站
newurl='https://www.17k.com/'   #目标网站的主网站
headers={
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36'}   #身份表示
#根据得到的url获取html文件
request=urllib.request.Request(url,headers=headers)
for i in range
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值