简单讲解如何运用python在IDLE中爬取豆瓣出版社
首先开发所需环境如下:
在IDLE中ctrl+n新建一个py项目--例如:
然后开始写代码:
接下来进行正则表达式的确定
打开浏览器输入网址:https://read.douban.com/provider/all
按f12键可以看到页面源码如下:
接下来按1,2,3步骤找到出版社对应源码如下:
写好正则表达式并执行文件写入保存如下:
按f5执行.py文件效果如下:
找到写入的文件:
最终完成爬取工作,这是简单阐述了爬虫的工作机制!
笔者小萌新一枚!