安装pip install beautifulsoup4
从HTML或者XML文件中提取数据
安装HTML解析器pip install lxml
html中包括Tag,Name,Attributes。
Beautifulsoup用NavigableString类来包装tag中的字符串。
遍历文档树,搜索文档树,修改文档树。
爬虫思路:
分析136书屋url,每一章对应一个url
使用代理
请求url
下载html
用BeautifulSoup将html转换为文本打印出来
解析目录页
打开一个txt文件
循环解析每一章的链接地址
将每一章的html下载然后转换为文本
保存到txt文本中