上次爬了射雕英雄传连载版,时隔一年,在看倚天屠龙记连载版的时候,是之前在网上找的资源,居然有乱码,又不好再找资源
而且对网上资源导入多看阅读后没有目录早已不爽,索性自己动手.
其实要说看书,还是看纸质版的好,手机看,少那么点意思还伤眼.
不想爬取的话,可以找我要我已经整理好的小说
代码如下:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
@Time : 2019/12/14 10:20
@Author : YuJinNeng
@Site :
@File : 爬取代码.py
@Software: PyCharm
"""
import random
import time
from bs4 import BeautifulSoup
from urllib import request
import re
def down_txt(href_content, book_name):
html_addr = "http://www.jinyongwang.com" + href_content
html_content = request.urlopen(html_addr).read()
soup = BeautifulSoup(html_content, 'html.parser')
author = str(soup.select('.author')[0])
author_content = re.findall('<p class="author">(.*?)<a', author)[0]
author_name = re.findall(