今天继续学习,爬取四大名著,内容来自静态网站http://www.purepen.com/index.html
目标:
- 每部名著单独一个文件夹
- 每回单独一个文件,格式:数字.章节名.txt,eg:1.甄士隐梦幻识通灵 贾雨村风尘怀闺秀.txt
- 去掉html中的换行和其他元素,只保留段落的换行
其他
因为编写代码边调试,每次完全重新执行比较慢(一部书100-120回),增加了文件名判断逻辑,已经爬下来的,就不重复爬了
注意:需要自己手工创建4个同名目录(后续再回来更新)
遇到的问题:
html解析时,遇到特殊字符,text()无法完整获取全部内容,如图
最终通过调整解析字符集