scrapy
KIDD5433
python爬虫小学生
展开
-
scrapy-新浪关注用户内容爬取
第一个需求 从新浪主页抓取当天的所有热门内容。有文字就爬取文字,图片就爬图片,其实直接爬取博文的连接就好。 抓取内容以内容作者为主要的id 爬取作者的昵称和发表日期,博文链接,博文标题。 这里不用登录,因为,热门内容主要是在微博首页,主要的要求就是使用selenium渲染工具去采集动态内容。 第一个问题: 新浪微博的采用下拉式更新的方式,所以需要使用selenium去执行js代码完成下拉的操...原创 2020-04-26 19:48:22 · 245 阅读 · 0 评论 -
scrapy爬虫练习-3-27
今天,没有练习什么,重新熟悉了一下有关selenium定位的两个关键的方法。xpath和css selector。这两种方法不仅能在selenium中使用,也能够很多解析网页的库中使用,且很简单,容易学。所以就出现了一个问题,没有需求,没需求就没有供给,就没有目标,就没有动力。我想既然没有什么需求,不如自己创造的需求,或者说创造点问题,借此来锻炼自己的技术。 在github上有很多爬虫项目,我看了...原创 2020-03-27 21:59:14 · 203 阅读 · 0 评论 -
scrapy爬虫练习-3-26
剧情回顾 上一回,完成了使用scrapy框架重写了requests对豆瓣高分电影的爬取。由此对scrapy这个框架有了初步的了解。接下来要对scrapy框架加深了解,不过想要深入的了解这个scrapy框架还得看文档,或者看有关书籍。 在了解scrapy框架之前,需要了解scrapy这个框架的运作流程。具体流程如下图: 上回,使用了编写了spiders发出请求,并重写了start_request方法...原创 2020-03-26 22:32:16 · 327 阅读 · 0 评论 -
scrapy爬虫框架学习之路-3-25
上回我们说到,如何使用python的requests请求库爬取豆瓣高分电影榜,本次就说一说如何使用scrapy这个python爬虫框架去实现爬虫功能。 首先,使用scrapy的框架需要经历一下步骤: 创建一个scrapy工程。 编写spider。 编写item。 编写pipelines 上述的四个步骤就完成了一个网站从请求、下载、解析网页、保存的过程。接下也会按照这四个步骤去编写代码。 创建工...原创 2020-03-25 19:52:26 · 176 阅读 · 0 评论 -
scrapy爬虫框架学习之路-3-24
scrapy爬虫框架 从2020年3月24日开始,也就是今天,我要开始日更我在学习、练习scrapy爬虫框架时的收获,问题。目的就是为了能够熟练的操作scrapy,能为我找工作提供一些帮助就更好了。 首先,什么是scrapy?scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动...原创 2020-03-25 00:01:18 · 185 阅读 · 0 评论