准备工作:
IDE:pycharm 2018.3.5
Anaconda3-2018.12 + Python 3.7.1
1、导入相关的库
file -> settings -> project ->project interpreter,点击右上角 + 号,输入需要的模块 bs4 & requests选中后,点击左下角的install package
2、查看需要爬取的网页的HTML页面信息
以我爬取的网页为例讲解:
定位到网页文章标题的块class,若class里面有好几个样式,可选择只有标题有的样式,我选择第二个col-md-7作为爬取定位。
查看标题的字号格式,这里是 h4。再就是记住需要爬取的页面网址,以上基本信息查看完毕。
3、开始设计代码
import requests #