自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 【无标题】

本文主用于学习记录,有问题希望大牛指出,多多学习交流。

2024-01-15 21:11:32 1756

原创 Scrapy爬取异步加载的数据

当我们爬虫遇到懒加载的数据该怎么办呢,首先我们就会想到用selenium模拟人为滑动不断加载数据,最后再获取数据,但是selenium速度又太慢,那么使用selenium+scrapy就刚好可以解决这个问题,下面是一个使用scrapy抓取懒加载数据的一个小案例,代码和方法的不足,还请各位大牛指点一二!!!本文介绍了Scrapy中间件的使用方法,主要涵盖了下载中间件的详细说明。下载中间件是Scrapy中的一类中间件,用于在请求和响应的处理过程中进行拦截和处理。

2023-07-24 15:26:49 418

原创 使用scrapy抓取多页内容

前面已经实现了模拟登陆,以及爬取单页数据和照片并保存,那么如果要爬取多页内容该如何实现呢?完善并使用Item数据类:在items.py中完善要爬取的字段在爬虫文件中先导入Item实力化Item对象后,像字典一样直接使用构造Request对象,并发送请求:导入scrapy.Request类在解析函数中提取url。

2023-07-24 01:22:07 737

原创 使用Scrapy抓取图片并保存

我们知道使用requests与selenium下载图片都是非常简单的,那么scrapy是怎么下载图片的呢?1.保存图片需要导入ImagesPipeline类2.需要配置settings.py 开启管道 并设置保存路径。

2023-07-24 00:55:41 1242

原创 使用Scrapy存储内容

爬取数据通常都要持久化使用,这就需要将爬取的数据进行存储,下面将通过几种方式将数据存储,代码以及方法的不足,请各位大牛指点一二!!!使用之前需要在settings中开启pipeline在setting中键表示位置(即pipeline在项目中的位置可以自定义),值表示距离引擎的远近,越近数据会越先经过有多个pipeline的时候,process_item的方法必须return item,否则后一个pipeline取到的数据为None值。

2023-07-24 00:33:19 462

原创 Scrapy模拟登陆

很多时候我们需要采集的数据都需要先登录,才能看到我们所需要的数据。最近也是学习了scrapy框架,今天就尝试使用scrapy模拟登陆,代码和方法存在不足,还希望各位大牛指点一二!!!start_urls中的url地址是交给start_request处理的,如有必要,可以重写start_request函数直接携带cookie登陆:cookie只能传递给cookies参数接收scrapy.FormRequest()发送post请求。

2023-07-23 22:25:04 424

原创 初始Scrapy框架

根据学习的需要,最近也是学习了Scrapy框架,下面记录总结一下我对于Scrapy框架的初认识,若有错误,请各位大牛指点一二!!!文档地址:https://docs.scrapy.org/en/latest/1.Scrapy是一个功能强大的Python开源爬虫框架,主要用于抓取互联网上的数据。2.crapy还提供了基于Twisted框架的异步网络库,可以支持高并发、高速度地进行数据抓取和处理。srapy的安装:pip install scrapy。

2023-07-23 11:46:21 38

原创 对速7的豆瓣影评分析

今天又重新看了一遍速7,感触颇深啊,又是想念保罗的一天,正好最近学习了selenium,所以就心血来潮爬了一下豆瓣的影评评分做一下分析。由此次分析可知豆瓣用户发布短评的时间主要集中于晚上,20点至0点尤为突出,但随着夜深,比例也在下降,这主要与豆瓣用户的作息生活相关,同时短评一般在观看完电影后发布,所以用户可能偏向于观影结束回到家之后再进行对影片的评价行为。还可以得知北上广使用豆瓣 进行评价的记录更多一些,可能是豆瓣的人文、企业文化受众多为一线城市的民众。

2023-07-10 23:38:32 188 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除