简单小说爬取

最新推荐文章于 2023-05-21 21:01:00 发布

a_dyl

最新推荐文章于 2023-05-21 21:01:00 发布

阅读量228

点赞数

分类专栏：基础文章标签： python

本文链接：https://blog.csdn.net/tingyushuo_/article/details/103747654

版权

基础专栏收录该内容

3 篇文章 0 订阅

订阅专栏

关于简单的小说爬取

import requests  #requests是一个HTTP请求库
from pyquery import PyQuery#网页解析 原生CSS解析器 css层叠样式表

# 章节url name书名

def get_one_chapter(chapter_url=None,name=None,shunxu=None):
    '''
    :param chapter_url: 章节url
    :param name: 书名
    :return: None
    '''
    response = requests.get(url=chapter_url)        #
    doc = PyQuery(response.text)
    title = doc("h1").text()
    content1 = doc("#nr1").text()    
    print(shunxu,title,content1)
    num = str(shunxu)
    with open(file= num+title + ".txt", mode='a+', encoding='utf_8') as f:
        # 里面能写入文字，不能写入对象列表
        f.write(title + " \n\n " + content1)


# 获取整本书的url 获取书名
def get_index():
    #目录
    index_url = 'https://www.luoxia.com/qing/'#目录地址
    text = requests.get(url=index_url).text
    doc = PyQuery(text)                        #对象解析
    # print(doc)
    # ****************获取links的所有链接********************/
    links = doc('#content-list a')                #连接标签                         
    name = doc("h1").text()                     #连接标签
    shunxu = 0
    for link in list(links.items())[9:]:
        shunxu = shunxu+1           
        # print(l)
        chapter_url =link.attr.href  
        print(chapter_url)
        get_one_chapter(chapter_url=chapter_url, name=name,shunxu=shunxu)

get_index()

简单的实战练习

a_dyl

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
简单小说爬取

关于简单的小说爬取import requests #requests是一个HTTP请求库from pyquery import PyQuery#网页解析原生CSS解析器 css层叠样式表# 章节url name书名def get_one_chapter(chapter_url=None,name=None,shunxu=None): ''' :param chapt...
复制链接

扫一扫