python小说信息爬取并保存成txt

故事背景:

公元2019年,大数据课设,要做一个大数据系统,和两个室友决定搞一个小说推荐系统,所以就需要很多小说的数据,SO,就需要爬点数据了。

讲一下思路:

选一个小说网站,这里就不说我用的小说网站的名字了。我这里爬取的是静态网页,简单一点。
首先从主页面上获取每个小说的详情页的url,进入详情页获取需要的信息,书名、点击量,因为我们要做推荐系统,还需要评分,但是他上边没有,所以我就自己随机数了23333;主页的url分页爬取,所以分析一下不同页url的差异,就是index_x(x=1,2…),然后就能分页取了,因为小说类型在其他位置,所以单独爬取,最后在和小说其他数据连在一起,其他就正则表达式了。

代码:

   import requests,re,time,random

class QiShu(object):
    def __init__(self):
        self.url='https://www.qisuu.la/soft/sort06/index_{}.html'
        self.headers={
   
            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36',
        }#请求头从网页得到,模拟浏览器访问,简单的反爬虫
    def get_html(self,page_num):
    #根据主页url得到主页html信息
        url=self.url.format(page_num)
        try:
            response = requests.get(url=url, headers=self.headers)
            if response.status_code == 
  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值