自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Scrapy 电影天堂

数据总数应为157*25+10=3935,但实际情况有出入,只有3934条数据,经过检查,发现有一部电影的二级页面失效,无法正常访问,导致数据丢失,这个异常并未在代码中处理,所有数据总数和实际数据数量回有误差。另有些电影的二级页面能够访问,但是没有海报的数据,所以csv中会存在None,电影名称也会有存在None,甚至名称和海报都为None,目前还未排查出,有待优化。目标数据:电影名称,每部电影的海报(海报在二级页面,通过点击电影名称跳转)​跳转二级页面,通过xpath提取图片。

2023-07-07 17:38:53 780 2

原创 爬虫——Scrapy框架 (初步学习+简单案例)

定义了爬取结果的数据结构,爬取的结果会被赋值成Item对象,每个Item都是一个类,类里面定义了爬取结果的数据字段,可以理解为用来规定数据的存储格式。5. Downloader(下载器):负责下载Engine发送的所有请求,将获取的Response返回给Engine,再发给Spiders处理。1. Engine(引擎):用来处理整个系统的数据流和时间,是整个框架的核心,可以理解为中央处理器,负责数据的流转和逻辑的处理。steam 用户创建的文件,定义爬取的url以及对数据的处理。

2023-06-09 18:56:06 1839

原创 selenium获取ticket.yes24.com信息

2.进入url定义的网页中,利用selenium自动化测试和Xpath元素定位进行日期、场次,预定操作,并在网页弹窗提示下进行登录,再次确认以上信息,进入购票窗口。3.此时进入一个新的窗口,需要通过句柄来切换窗口。(网页源代码中并无iframe标签,无法通过切换iframe来进行切换)1.定义用户名,密码(自行注册),设置页面加载策略,关闭selenium受控制chrome提示,确定需要访问的url。4.第三步已经完成了选座操作,接下来就要获取一些基本信息。

2023-05-22 17:15:57 2184 3

原创 基于JWT模拟登录爬取案例

基于JWT的网站通常采用前后端分离模式,数据的传输依赖于Ajax,登录验证依赖JWT的token认证。JWT经验证是有效的,服务器就返回相应的数据。首次访问网址,会跳转到登录界面,打开 开发者工具,点击Network,刷新页面,输入用户名和密码,点击登录,查看第二个login请求。2.在之后的请求当中,在headers中加上Authorization字段,通过token验证,如何爬取内容。,Payload中返回username和password,Preview返回了token的值。

2023-05-12 17:39:42 211 1

原创 Django:第一个项目

运行Django项目。

2023-03-06 10:35:53 46

原创 Django :ORM

DJango ---ORM

2023-03-02 00:42:46 89 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除