- 博客(6)
- 收藏
- 关注
原创 爬虫学习总结五
五. 京东图书全站信息爬取1. 网页分析2. 项目创建3. 大分类信息爬取4. 小分类信息爬取5. 小分类里的图书信息爬取 1. 网页分析 首先我们打开京东图书的网站:https://book.jd.com/booksort.html 里面加粗的字体是图书的大分类信息,下面是每个大分类下的小分类信息,点击每个小分类链接,可以看到相关分类下的图书信息。 2. 项目创建 打开CMD,切换到你想要保存项...
2019-10-12 10:22:17 409
原创 小练习一
一. 给微信头像加国旗1. 导入包2. 代码编写 之前给微信头像加国旗很火,所以自己也试了一下,不过当时忘了分享了。 1. 导入包 from PIL import Image 这里要注意一下,在导这个包的时候,以为需要安装的包名是PIL,可是怎么都无法下载,找了很多方法,原来是Python版本问题。打开cmd输入 pip install pillow 即可解决。 2. 代码编写 from PIL ...
2019-10-11 14:10:26 111
原创 爬虫学习总结四
四. Scrapy框架爬拉勾网Python岗位信息1. 定义想要抓取的item字段2. 编写爬虫代码和配置settings.py1. 单页面数据爬取2. 修改settings.py3. 自动翻页4. 数据分析 1. 定义想要抓取的item字段 我们想要抓取的Items是职位名称、公司地点、公司名称、工资、工作经验要求、学历要求这六个字段,下面是items.py的具体代码: # -*- codin...
2019-10-10 17:17:21 206
原创 爬虫学习总结三
三. Scrapy框架爬虫自动翻页及设置UA1. 爬虫自动翻页方法第一种第二种 1. 爬虫自动翻页方法 这里主要介绍两种翻页方法,一个是对页面源码中“下一页”进行解析,一个是直接对爬取的网站地址url进行分析。 第一种 基于上一章节所描述的对于python吧的爬虫,我们增加自动翻页功能来做进一步的完善。 我们可以发现,在python吧的页面源码中,当翻到最后一页时,“下一页”就消失了,所以可以根据...
2019-10-09 15:31:35 157
原创 爬虫学习总结二
爬虫学习:二. 基于Scrapy框架的python吧简单爬虫1. 爬虫目录结构介绍2. items.py3. TieBa.py4. 运行爬虫 1. 爬虫目录结构介绍 上一章对Scrapy框架做了简单的介绍,并且创建了FirstSpider这个爬虫项目,生成的爬虫目录结构如下: items.py:定义你想抓取的数据(也可以直接放在TieBa.py中定义) middlewares.py:用来设置各种...
2019-10-09 09:26:29 195
原创 爬虫学习总结一
爬虫学习:一. Scrapy框架简介1. Scrapy框架图六大组件引擎*(Scrapy Engine*)调度器(Scheduler)下载器(Downloader)爬虫(Spider)实体管道(item Pipeline)中间件(Middlewares)2. 新建一个基于Scrapy框架的爬虫项目安装Scrapy框架新建Scrapy爬虫项目 1. Scrapy框架图 在进行爬虫之前,先学习一下爬虫...
2019-10-08 15:41:31 402
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人