python
sc_spider
专注爬虫,数据分析,机器学习
展开
-
爬虫爬取豆瓣出版社
简单讲解如何运用python在IDLE中爬取豆瓣出版社首先开发所需环境如下:在IDLE中ctrl+n新建一个py项目--例如:然后开始写代码:接下来进行正则表达式的确定打开浏览器输入网址:https://read.douban.com/provider/all按f12键可以看到页面源码如下:接下来按1,2,3步骤找到出版社对应源码如下:写好正则表达式并执行文件写入保存如下:按f5执行.py文件效果...原创 2018-07-02 00:34:27 · 1154 阅读 · 1 评论 -
Urllib库实战
urllib基础要系统学习urllib模块,需要先学习基础的urllib,下面会提到urlretrieve(),urlcleanup(),info(),getcode(),geturl()等urlretrieve()获取某个网页写入内存中,下面爬取豆瓣首页:(可以不赋值data)urlcleanup()清除内存,info()返回当前环境信息,如下:getcode()是当前网页的状态码,200为正常...原创 2018-07-02 19:10:50 · 222 阅读 · 0 评论