自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 Scrapy框架原理与使用流程

在数据管道处理的第一步中,我们定义一个继承自`scrapy.Item`的类,这个类通过使用`scrapy.Field()`定义字段,来存储我们需要爬取的数据。`scrapy.Item`,这个类通过使用`scrapy.Field()`定义字段,来存储我们需要爬取的数据。我们需要存几个字段的数据就定义几个字段的值, 字段名= scrapy.Field()

2024-10-22 22:02:07 2255

原创 Selenium处理验证码

防止恶意破解密码、刷票、论坛灌水、刷页。有效防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登录尝试,现在也用于反爬虫 风控这块。

2024-10-22 20:54:56 2210

原创 selenium与request的区别

selenium自动化一般可打开好几个网址,模拟登录自动化脚本。request一般只访问一个网址。

2024-10-21 22:42:28 168

原创 Selenium进阶:动作链+窗口切换+元素等待

抛出异常 隐式等待是全局性的 只需要设置一次 即运行过程中,如果元素可以定位到,它不会影响代码运行,但如果定位不到,则它会以轮询的方式不断地访问元素直到元素被找到,若超过指定时间,则抛出异常。显式等待利用`WebDriverWait`配合条件判断(`until`或`until_not`)进行元素定位,只有当元素出现或满足指定条件时才执行后续操作,若超时未满足条件则抛出异常。method:指定预期条件的判断方法,在等待期间,每隔一段时间调用该方法,判断元素是否存在,直到元素出现。(2)使用无界面模式。

2024-10-21 22:36:50 1209

原创 使用selenium 爬取苏宁任意关键字的商品

【代码】使用selenium 爬取苏宁任意关键字的商品。

2024-10-21 20:50:51 88

原创 Selenium自动化测试工具

Selenium的核心功能之一是测试软件在不同浏览器和操作系统上的兼容性,确保软件功能与用户需求的一致性,提升用户体验。

2024-10-21 20:48:48 886

原创 爬彼岸图网

【代码】爬彼岸图网。

2024-10-21 18:38:02 137

原创 图片爬取实例

【代码】图片爬取实例。

2024-10-21 17:18:36 89

原创 代理与模拟登录

我们用程序访问人家网站,请求次数一下很多 不像人在访问,有些网站就会封掉你的IP 封了以后,当前的IP就不能访问这个网站,爬不了这个数据。

2024-10-20 22:56:31 2369

原创 爬虫之数据存储====Mysql

【代码】爬虫之数据存储====Mysql。

2024-10-19 15:33:02 271

原创 爬虫之数据存储====Excel

【代码】爬虫之数据存储====Excel。

2024-10-17 23:09:16 301

原创 爬取链家100页租房字段:标题,价格,房屋介绍,房屋标签,房屋位置

若爬取100页出现人机认证。

2024-10-17 22:16:18 183

原创 爬取安居客 所有条数的租房字段数据 使用xpath取出标题 价格 标签 地址 房屋信息

1.确定目标url:‘https。2.发起请求,获得响应。

2024-10-16 22:25:15 203

原创 爬虫之数据解析====xpath

xpath方法 返回的是列表 列表的数据 默认是Elementprint('/html/body/div/ul/li')) #获取这所有的liprint('body/div/ul/li')) #获取这所有的liprint('//li')) #获取这所有的li。

2024-10-08 21:58:53 275

原创 爬取 番组计划 每一条图书字段的值

1.用CTRL+F查询检索运行结果。2.如查不到可能是因为乱码了。meta标签→charset。

2024-10-08 20:44:44 172

原创 爬虫之数据处理(HTML)----bs4(css选择器)

BeautifulSoup用来解析HTML比较简单,API非常热人性化,支持css选择器,python标准库中的HTML解释器,也支持lxml的xml解释器。BeautifulSoup是一个可以从HTML或XML文件中提取数据的python库。. → class选择器。> → 子代后代选择器。# → id选择器。

2024-10-08 17:22:19 263

原创 爬虫之数据解析----jsonpath

【代码】爬虫之数据解析----jsonpath。

2024-10-05 13:58:04 629

原创 腾讯招聘爬取10页(练习翻页)

【代码】腾讯招聘爬取10页(练习翻页)

2024-10-05 13:37:53 226

原创 爬虫之数据解析----JSON

JSON是一种轻量级的数据交换格式,他使人们更容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。前端(JS,HTML,CSS) →JSON → 后端(python)后端(python) → JSON → 前端(JS,HTML,CSS)

2024-10-05 02:46:38 392

原创 将爬取的内容实现一一对应输出

【代码】将爬取的内容实现一一对应输出。

2024-10-04 21:45:28 501

原创 爬虫之数据解析----正则

match方法 : 查找字符串头部 一次匹配 要找到了一个匹配的结果就返回,而不是查找所有匹配的结果。findall方法 : 查找所有匹配的结果 然后返回列表。(2)非贪婪模式:尽可能少的匹配 后面加?(1)贪婪模式:尽可能多的匹配 默认为贪婪模式。.匹配任意字符 除了换行符。在代码后面加re.S即可。规则默认在一行内匹配。

2024-10-04 20:46:58 671

原创 认识爬虫与开发者工具

请求网站并且提取数据的自动化程序简单来说就是用来爬取数据的脚本。

2024-10-04 16:29:36 1123

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除