爬虫代码

这段代码是一个使用Python进行网络爬虫的实现,主要利用BeautifulSoup库解析HTML页面,获取小说的章节名和内容,并将其保存到本地文件。爬取过程包括获取网页HTML,解析章节链接,按顺序下载章节内容,并在下载过程中显示进度。
摘要由CSDN通过智能技术生成
爬虫代码,备忘。
#coding=utf-8
#__author__ = chengzhipeng

import re
import os
import sys
from bs4 import BeautifulSoup
from urllib import request
import ssl
# url = 'http://www.biqiuge.com/book/4772/'
# url = 'https://www.qu.la/book/1/'
url = 'http://www.biquge.com.tw/14_14055/'

def getHtmlCode(url):
    page = request.urlopen(url)
    html = page.read()
    htmlTree = BeautifulSoup(html,'html.parser')
    return htmlTree
    #return htmlTree.prettify()
def getKeyContent(url):
    htmlTree = getHtmlCode(url)

def parserCaption(url):
    htmlTree = getHtmlCode(url)
    storyName = htmlTree.h1.get_text() + '.txt'

    print('小说名:',storyName)
    aList = htmlTree.find_all('a',href=re.compile('(\d)*.html'))  #aList是一个标签类型的列表,class = Tag 写入文件之前需要转化为str
    #print(int(aList[1]['href'][0:-5]))
    print(aList)
    aDealList = []
    for line in a
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值