用python爬取小说章节内容

在学爬虫之前, 最好有一些html基础, 才能更好的分析网页. 

主要是五步:

1.  获取链接

2. 正则匹配

3. 获取内容

4. 处理内容

5. 写入文件

代码如下:

#导入相关model
from bs4 import BeautifulSoup
import requests
import re

#获取目标链接地址
url = 'http://www.biquyun.com/0_292/'
reponse = requests.get(url)
reponse.encoding = 'gbk' #设置编码方式,可在网页源码头部查到
html = reponse.text

#获取各章节链接和标题
#审查元素, 找到小说章节的代码位置, 找出其对应的标签, 进行正则匹配
dl = re.findall(r'<dd><a href="(.*?)">(.*?)</a>', html, re.S) #返回list类型
j=0 #计数, 只获取前30章, 多了结果要很久才出来

#进行章节内容获取
for chapter in dl:
    if j >= 30:
        break
    #获取章节链接,名字.等价于c_link=chapter[0]; c_title=chapter[1]
    chapter_link, chapter_title = chapter
    #补全链接,因为之前获取的只是链接的尾部
    chapter_link = "http://www.biquyun.com%s" % chapter_link

    #仿照之前的再写一遍
    chapter_reponse = requests.get(chapter_link)
    chapter_reponse.e
  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值