Python爬取网站小说的源码思路

最新推荐文章于 2024-06-24 18:45:00 发布

煜眠

最新推荐文章于 2024-06-24 18:45:00 发布

阅读量710

点赞数

分类专栏：资源分享文章标签： python

本文链接：https://blog.csdn.net/ddx44/article/details/109687562

版权

本文分享了一位程序员使用Python编写爬虫抓取小说网站内容的源码思路，包括安装必要包、获取网页对象、定位内容父节点等关键步骤，提醒读者仅作参考，勿用于违规行为。

摘要由CSDN通过智能技术生成

还是老样子，本人喜欢看小说，但奈何不想去付费，就用Python做了个爬虫来用，这里仅展示我的源码，以供参考
1.首先得下两个包，这个不多说，都懂（不懂的百度上有教程，可以多看看）这里就直接放源码了

import requestsfrom bs4 import BeautifulSoup

2.爬虫的核心主要就是根据指定网址获取网页对象，所以接下来就是进行获取

def download_page(url):
    data = requests.get(url).content
    return data

3.逻辑很关键，这里要自己去打开你获取的网页，找到需要内容的父节点

def parse_html(html):
#从上一个方法中获取到的html对象需要进行转换
    soup = BeautifulSoup(html)
#获取table对象
    movie_list_soup = soup.find('table')
    # print(movie_list_soup)
#书名
    movie_list = []
#章节名
    movie_name_list = []
    if movie_list_soup is not None:
        i = 1
#获取table中的每个tr
        for movie_li in movie_list_soup.find_all('tr'):
#排除表格标题
            if movie_li.find_all('th'):
                continue
#获取每个tr中的a标签，主要为获取书籍地址
            a_ = movie_li.find_all('td', attrs={
   'class': 'odd'})[0].find('a')
            print(i, '.', a_.text)
            movie_list.append(a_[

最低0.47元/天解锁文章

煜眠

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python爬取网站小说的源码思路

还是老样子，本人喜欢看小说，但奈何不想去付费，就用Python做了个爬虫来用，这里仅展示我的源码，以供参考1.首先得下两个包，这个不多说，都懂（不懂的百度上有教程，可以多看看）这里就直接放源码了import requestsfrom bs4 import BeautifulSoup2.爬虫的核心主要就是根据指定网址获取网页对象，所以接下来就是进行获取def download_page(url): data = requests.get(url).content return dat
复制链接

扫一扫