学校实训的第三天

笔趣看–小说下载助手

今天我们来爬取笔趣看的小说,网址为https://www.biqukan.com/
话不多说,直接上代码:
import re  # 正则表达式
import requests
from bs4 import BeautifulSoup
import os
def init():
    print('*'*50)
    print('--------------欢迎使用笔趣看小说下载助手-----------------')
    print('使用方式:')
    print('\t\t\t1.1_1094')
    print('\t\t\t2.一念永恒')
    #input:输入框
    global book_url,book_name
    book_url = input('请输入小说编号: ')
    book_name = input('请输入小说名字确认: ')

    # 获取小说的章节目录
    get_book_zhangjie()

def get_book_zhangjie():
    try:
        # 1.verify:SSL认证,True开启,False关闭
        # url = 'https://www.biqukan.com/0_910/'
        head = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.92 Safari/537.36'}
        # 2.发起请求:url,headers,verify
        url = 'https://www.biqukan.com/' + book_url + '/'
        response = requests.get(url=url, headers=head, verify=True)
        # search:从目标字符串寻找时代的字符
        # span()[1]: 可以获取序列的长度
        # print(re.search('.com',url),re.search('.com',url).span()[1])
        url = url[:re.search('.com', url).span()[1]]
        # print(url)
        # 3.验证访问状态
        print('访问状态:', response.status_code)
        if response.status_code == 200:
            # 4.设置编码格式
            response.encoding = 'gbk'
            # 5.获取二进制内容
            html = response.content
            # 测试1:print(html)
            # 6.使用bs4解析内容 1.内容 2.解析器
            bs = BeautifulSoup(html, 'lxml')
            # 7.订制过滤规则
            tag_dl = bs.find('dl')
            start_tag = False
            for tag_dd in tag_dl:
                # 8.判断dd章节内容:
                if tag_dd == '\n':
                    continue
                # 9.判断章节什么时候到正文卷
                elif tag_dd.string == '《' + book_name + '》正文卷':
                    start_tag = True  # 开始下载的开关
                    print(tag_dd.string)
                elif start_tag:
                    # 10.下载 1.章节名字 2.url
                    zhangjie_name = tag_dd.a.string
                    zhangjie_src = url + tag_dd.a['href']

                    # 获取小说章节的内容
                    get_book_zhangjie_content(zhangjie_name, zhangjie_src)
        else:
            print('内容不健康,请重新选择------------')
            init()  # 重新操作
    except:
        print('内容不健康,请重新选择------------')
        init()  # 重新操作

def get_book_zhangjie_content(zhangjie_name,zhangjie_src):
    response = requests.get(url=zhangjie_src,headers={},verify=True)
    if response.status_code == 200:
        response.encoding = 'gbk'
        bs = BeautifulSoup(response.content,'lxml')
        #过滤器
        div_content = bs.find(attrs={'id':'content','class':'showtxt'})
        #替换字符串内部的空格符
        # [/xa0] = &nbsp
        # \r:回到首行   \n:跨行
        lines = re.sub('[\xa0]+', '\r\n', div_content.text)
        # 测试:
        #print(lines)
        path = '笔趣看小说' + '\\' + book_name
        if not os.path.exists(path):
            os.makedirs(path) #创建多个目录
        #创建每个的章节文件并写入内容
        file = open(path + '\\'+zhangjie_name+'.txt','w',encoding='utf-8')
        file.writelines(lines) #写入一行
        file.close()
        print(zhangjie_name, zhangjie_src,'下载完毕------')
    else:
        print('该章节不存在~~~~~~~~~')

if __name__ == '__main__':
    #初始化
    init()
知识重点:正则表达式、os模块里os.mkdir(path)的用法、bs4的操作等
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
未来社区的建设背景和需求分析指出,随着智能经济、大数据、人工智能、物联网、区块链、云计算等技术的发展,社区服务正朝着数字化、智能化转型。社区服务渠道由分散向统一融合转变,服务内容由通用庞杂向个性化、服务导向转变。未来社区将构建数字化生态,实现数据在线、组织在线、服务在线、产品智能和决策智能,赋能企业创新,同时注重人才培养和科研平台建设。 规划设计方面,未来社区将基于居民需求,打造以服务为中心的社区管理模式。通过统一的服务平台和应用,实现服务内容的整合和优化,提供灵活多样的服务方式,如推送式、订阅式、热点式等。社区将构建数据与应用的良性循环,提高服务效率,同时注重生态优美、绿色低碳、社会和谐,以实现幸福民生和产业发展。 建设运营上,未来社区强调科学规划、以人为本,创新引领、重点突破,统筹推进、整体提升。通过实施院落+社团自治工程,转变政府职能,深化社区自治法制化、信息化,解决社区治理中的重点问题。目标是培养有活力的社会组织,提高社区居民参与度和满意度,实现社区治理服务的制度机制创新。 未来社区的数字化解决方案包括信息发布系统、服务系统和管理系统。信息发布系统涵盖公共服务类和社会化服务类信息,提供政策宣传、家政服务、健康医疗咨询等功能。服务系统功能需求包括办事指南、公共服务、社区工作参与互动等,旨在提高社区服务能力。管理系统功能需求则涉及院落管理、社团管理、社工队伍管理等,以实现社区治理的现代化。 最后,未来社区建设注重整合政府、社会组织、企业等多方资源,以提高社区服务的效率和质量。通过建立社区管理服务综合信息平台,提供社区公共服务、社区社会组织管理服务和社区便民服务,实现管理精简、高效、透明,服务快速、便捷。同时,通过培育和发展社区协会、社团等组织,激发社会化组织活力,为居民提供综合性的咨询和服务,促进社区的和谐发展。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值