记python爬虫第一战,爬取小说,并写入txt文件
本文介绍了一个及其简单的爬虫实例,使用python版本为3.7
一、使用到的库文件有:
requests:用于get请求
bs4:用于网页请求
codecs:用于读写文件
二、对网页文件结构进行分析(PS:浏览器使用的是360浏览器)
- 目标网页:https://www.zwdu.com/book/7586
2.首先获得每一章节的URL,鼠标放在某一章节上,右键——审查元素
- 这儿就是我们要的URL了
- 我们的目标在
<div id="list">下的<dd>内的<a>标签内
4.一下为获取URL的代码
// An highlighted block
import requests
import codecs
from bs4 import BeautifulSoup
re=requests.get('https://www.zwdu.com/book/7586/')
html=re.content
soup=BeautifulSoup(html,'html.parser')
body=soup.body
data=body.find('div',{
'id':'list'})
dd=data.find_all('dd')
for n in dd:
txt=n.find('a').string
url=n.find(