###第一步:
请确保你已经安装了Requests和Beautifulsoup4的库,否则你可以打开CMD(命令提示符)然后输入
pip3 install requests
pip3 install Beautifulsoup4
pip3 install lxml
安装完毕后接着打开你的编辑器,这里对编辑器不做纠结,用的顺手就好。
首先我们做爬虫,拿到手第一个步骤都是要先获取到网站的当前页的所有内容,即HTML标签。所以我们先要写一个获取到网页HTML标签的方法。
整个爬虫的的代码搭建我都采用的是将不同的功能做成不同的函数,在最后需要调用的时候进行传参调用就好了。
那么问题来了,为什么要这么做呢?
写代码作为萌新要思考几件事:
1、这个代码的复用性;
2、这个代码的语义化以及功能解耦;
3、是否美观简洁,让别人看你的代码能很清楚的理解你的逻辑;
代码展示:
上述代码几个地方我特别说明一下: ''' 抓取每天