Python爬取网站小说的源码思路

本文分享了一位程序员使用Python编写爬虫抓取小说网站内容的源码思路,包括安装必要包、获取网页对象、定位内容父节点等关键步骤,提醒读者仅作参考,勿用于违规行为。
摘要由CSDN通过智能技术生成

还是老样子,本人喜欢看小说,但奈何不想去付费,就用Python做了个爬虫来用,这里仅展示我的源码,以供参考
1.首先得下两个包,这个不多说,都懂(不懂的百度上有教程,可以多看看)这里就直接放源码了

import requestsfrom bs4 import BeautifulSoup

2.爬虫的核心主要就是根据指定网址获取网页对象,所以接下来就是进行获取

def download_page(url):
    data = requests.get(url).content
    return data

3.逻辑很关键,这里要自己去打开你获取的网页,找到需要内容的父节点

def parse_html(html):
#从上一个方法中获取到的html对象需要进行转换
    soup = BeautifulSoup(html)
#获取table对象
    movie_list_soup = soup.find('table')
    # print(movie_list_soup)
#书名
    movie_list = []
#章节名
    movie_name_list = []
    if movie_list_soup is not None:
        i = 1
#获取table中的每个tr
        for movie_li in movie_list_soup.find_all('tr'):
#排除表格标题
            if movie_li.find_all('th'):
                continue
#获取每个tr中的a标签,主要为获取书籍地址
            a_ = movie_li.find_all('td', attrs={
   'class': 'odd'})[0].find('a')
            print(i, '.', a_.text)
            movie_list.append(a_[
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值