前言:
为了搭建爬虫基础框架,测试正则表达式,最初目的是帮别人下载一篇小说,所以进行爬虫试验,小说地址:http://dangdu.dangdang.com/catalog/167378.shtml,项目编辑的IDE为PyCharm PROFESSIONAL 2019.3,编码过程中用到了python中的两个库,分别是re、urllirb。
其实,等到这篇小说爬取完成后,别人已经在网页端看完了,看完了,完了~
1. 基础知识:
会写正则表达式,能看得懂浏览器中的部分源代码,这就足够了
2. 项目过程:
2.1 获取章节的超链接和标题
home_html = urllib.request.urlopen("http://dangdu.dangdang.com/catalog/