- 博客(46)
- 收藏
- 关注
原创 在 HTTPX 中使用代理
当你将 HTTPX 与Bright Data 的高质量代理服务结合使用时,你能更私密、更高效、更稳定地进行网络抓取。立即开始试用 Bright Data 的代理,体验它带来的优势吧!t=P4F5亮数据-网络IP代理及全网数据一站式服务商屡获殊荣的代理网络、强大的数据挖掘工具和现成可用的数据集。亮数据:网络数据平台领航者https://www.bright.cn/
2025-06-10 07:45:00
435
原创 使用 cURL 发送 POST 请求
POST 请求是一种被广泛使用的 HTTP 方法,用于向服务器传输数据。与 GET 请求不同,GET 请求会将数据直接附加在 URL 之后,而 POST 请求会将要传输的数据放在请求正文(body)里。这样更能保护隐私,并且能够传输更多数据,不受浏览器对 URL 长度的限制。POST 请求通常用于提交表单、上传文件以及向 API 发送 JSON 数据。与 GET 请求相比,它们通常不会被缓存,而且数据也不会显示在浏览器历史中(因为数据位于请求体中)。
2025-06-06 07:45:00
587
原创 使用 CloudScraper 与代理
是一个 Python 模块,旨在绕过 Cloudflare 的反机器人页面(通常称为 “I’m Under Attack Mode” 或 IUAM)。它在内部基于 Requests(Python 最常用的 HTTP 客户端之一)实现。
2025-06-04 14:48:26
545
原创 招聘&找人【招募技术内容作者|高酬+远程|程序员兼职优选】
正在打造一个专注代理IP/爬虫/AI数据源评测的中国平台,致力于为开发者提供深度、可靠的技术分析与工具测评。正在打造一个专注代理IP/爬虫/AI数据源评测的中国平台,致力于为开发者提供深度、可靠的技术分析与工具测评。✅ 撰写深度评测:测试SaaS工具(如代理IP服务、爬虫框架等),产出含代码示例+数据对比的评测报告(每周约1篇)。✅ 创作技术干货:围绕数据抓取、反爬绕过、AI数据采集等主题,输出对开发者真正有用的内容。✅ 快速理解技术:能快速上手测试我们提供的工具,并提炼关键优劣点。
2025-05-28 09:00:38
178
原创 绕过 Cloudflare:最佳实践
网络解锁器 - 自动化网页解锁器在抓取网站时自动破解验证码。我们的先进技术可轻松轮换 IP、处理用户代理并破解验证码。本指南将介绍如何绕过 Cloudflare 的安全机制,并成功抓取不会被阻止的网站。
2025-05-27 07:45:00
861
原创 教学视频 - 亮数据网页抓取API抓取领英的网页数据
第二重,首次充值可享受1比1赠送。http://亮数据-网页抓取工具-免费试用。亮数据网页抓取API抓取领英的网页数据。第三重,全系列APIs产品享受75折!第一重,点击注册新用户,送试用金。
2025-05-26 12:10:53
581
原创 教学视频 - 亮数据动态住宅代理抓取亚马逊网页数据
屡获殊荣的代理网络、强大的数据挖掘工具和现成可用的数据集。亮数据:网络数据平台领航者。第二重,首次充值可享受1比1赠送。亮数据-网络IP代理及全网数据一站式服务商。亮数据动态住宅代理抓取亚马逊网页数据。第三重,住宅代理所有套餐均享受6折!第一重,点击注册新用户,送试用金。
2025-05-26 12:09:29
244
原创 最佳 Python 网络爬虫库
Python 网络爬虫库可以帮助从网页中提取数据,通常包含发送 HTTP 请求、解析 HTML以及执行 JavaScript 等步骤。常见类别包括HTTP 客户端、一体化爬虫框架和无头浏览器工具。
2025-05-23 07:45:00
1064
原创 创建一个使用 GPT-4o 和 SERP 数据的 RAG 聊天机器人
RAG,全称,是一种将信息检索与文本生成相结合的 AI 方法。在 RAG 工作流程中,应用程序首先会从外部来源(如文档、网页或数据库)检索相关数据。然后,它将这些数据传递给 AI 模型,以便生成更具上下文相关性的回复。RAG 能够增强像 GPT 这样的大型语言模型(LLM)的功能,使其可以访问并引用超出其原始训练数据范围的最新信息。在需要精确且具有上下文特定信息的场景中,RAG 方法至关重要,因为它能够提高 AI 生成回复的质量和准确性。
2025-05-20 08:58:31
887
原创 使用 Python 解析 JSON 数据
JavaScript Object Notation(JSON)是一种轻量级的数据交换格式,通常用于通过 API 在服务器和 Web 应用之间传输数据。JSON 数据由键值对组成,其中键是字符串,值可以是字符串、数字、布尔值、null、数组或对象。"age": 32,},},],Python 原生支持JSON,通过json模块实现,它是Python 标准库的一部分。这意味着在 Python 中使用 JSON 时无需安装额外的库。你可以像下面这样导入jsonPython 内置的jsonloads和。
2025-05-16 07:45:00
1028
原创 躺赢赚钱计划 - 安卓设备硬件及内容提供者如何增加额外收入?
为您提供了一种独特的工具,可以在不显示广告的情况下最大化用户收入!它在后台运行,利用一小部分未使用的带宽来每日产生收益。点击观看以下介绍视频,了解详情。如果您自己,或身边有安卓设备及内容提供商,集成分销商,电视盒子,游戏开发者等对于增加额外收入有兴趣,都可以联系我们。预装模式 - Bright SDK 提供预装的免费内容,如高级 VPN、游戏、实用工具、屏保等。设备分发模式 - 我们购买您的定制设备,并保证最低分发数量。所有通过安卓设备,为客户提供内容服务的公司,都可以通过与。
2025-05-15 13:46:11
380
原创 亮数据Bright Data亮相上海AICon,5月23-24日
亮数据 Brigt Data 期待与您在 AICon 上海相见!5月23日至24日,B07号展台,不见不散!
2025-05-15 08:46:42
140
原创 PHP 代理服务器:如何在 PHP 中设置代理
亮数据-网络IP代理及全网数据一站式服务商屡获殊荣的代理网络、强大的数据挖掘工具和现成可用的数据集。亮数据:网络数据平台领航者了解如何在 PHP 中使用 cURL、和 Symfony 来设置代理。你还将看到如何在 PHP 中使用 Bright Data 的进行网络抓取和 IP 轮换。本指南也可在上查看。
2025-05-12 17:18:38
953
原创 在 Python 中使用 HTTPX 进行网页抓取
可以使用headers 参数# 自定义请求头q=0.8,fr;q=0.6,es;q=0.4,it;q=0.3"# 携带自定义请求头发起 GET 请求# 处理响应...User-Agent是网页抓取中最重要的请求头之一。HTTPX 默认的User-Agent此标识很可能会让目标网站识别到你的请求是自动化脚本,从而导致封禁。可以将User-Agent# 定义一个自定义的 User-AgentWin64;# 携带自定义 User-Agent 发起请求# 处理响应...
2025-05-09 07:45:00
751
原创 最佳 JavaScript 网络数据采集库
JavaScript 网络数据采集库可以通过发送HTTP 请求解析 HTML以及渲染基于 JavaScript 的内容来帮助你从网页上提取数据。你可以在此了解更多关于 JavaScript 和 node.js 爬取数据的内容:点击这里。
2025-05-06 07:45:00
1527
原创 最佳用于网络爬虫的 HTML 解析库
HTML 解析器用于处理 HTML 文档,将其转换为便于导航和操作的结构化数据格式。它们会分析 HTML 代码,并构建一个类似树形的结构来表示文档的 DOM。HTML 解析器在网络爬虫中至关重要,能够帮助你从网站中提取例如商品名称和价格等信息。语言CSS 选择器支持XPath 支持jsoupJava10.5k✅✅NokogiriRuby6.1k✅✅Python✅可通过lxml实现CheerioJavaScript27.6k✅❌C#2.5k可通过扩展实现✅。
2025-05-02 07:45:00
830
原创 如何使用 Golang 解析 HTML?
现在你已经了解了如何使用 Go 解析 HTML。Node Parser 适用于完整页面遍历,Tokenizer 更便于处理大型页面中特定数据提取。想要更多功能,可以尝试第三方工具。AmazonLinkedIn如何使用 Golang 解析 HTML?t=P1C7亮数据-网络IP代理及全网数据一站式服务商屡获殊荣的代理网络、强大的数据挖掘工具和现成可用的数据集。亮数据:网络数据平台领航者https://www.bright.cn?
2025-04-29 07:45:00
948
1
原创 使用 Selenium 和浏览器自动化抓取具有复杂导航的网站
在网页抓取中,所谓复杂导航,是指网站结构中,内容或页面不那么容易访问的情况。复杂导航通常涉及动态元素、异步数据加载或用户操作触发的事件等。这些特性可以提升用户体验,但同时也让数据提取变得更困难。基于 JavaScript 渲染的导航:使用 JavaScript 框架在浏览器中直接生成内容的网站。分页内容:数据分布于多个分页中,且分页是通过 AJAX 动态加载的。无限滚动:当用户向下滚动时,页面会动态加载更多内容,社交媒体动态流、基于 Discourse 的论坛以及新闻网站中十分常见。多级菜单。
2025-04-24 07:45:00
1478
1
原创 使用 AIOHTTP 在 Python 中进行网页抓取
AIOHTTP是一个基于 Pythonasyncio库的异步客户端/服务器 HTTP 框架。与传统的 HTTP 客户端不同,AIOHTTP 使用客户端会话来管理多次请求之间的连接,非常适合高并发、基于会话的任务。⚙️ 特性同时支持客户端和服务器的 HTTP 协议实现。原生支持 WebSockets(客户端和服务器)。提供中间件和可插拔路由以构建 Web 服务器。高效管理大规模数据流。包含客户端会话持久化,可重复使用连接,从而在大量请求时减少开销。可以在 AIOHTTP 中通过。
2025-04-22 14:02:18
609
原创 使用 SeleniumBase 进行网页抓取
SeleniumBase 是一个基于 Selenium/WebDriver API 的 Python 浏览器自动化框架,除了常规测试,它也可用于网页抓取,并且内置了例如跳过验证码、规避机器人检测等高级功能。
2025-04-10 07:45:00
818
原创 使用 Puppeteer 绕过 CAPTCHA
这是一份使用 Puppeteer 模仿人类行为来绕过 CAPTCHA 的快速指南。如果你想省去阅读本指南的步骤,可以直接注册 Bright Data 并选择。
2025-04-08 08:56:53
646
原创 亮数据所有API产品七五折!
已注册客户在主页(www.bright.cn)登录后,点击左下角导航栏里的【支付】,进入“计费”页面。专用端点,可从 120 多个热门域名提取最新、结构化的网页数据,100% 合规且符合道德规范。促销产品:所有API产品,包括网页抓取API,网页解锁器API以及SERP API。用于轻松抓取搜索引擎结果页面的API,获得来自所有主流搜索引擎的实时SERP数据。2. 未注册客户可以直接使用以下链接注册,并按上述步骤操作,即可获得折扣。折扣有效期:促销代码生效后的180天内。输入折扣代码后,折扣立即生效!
2025-04-07 12:09:19
534
原创 代理爬虫 Rust
是一个事件驱动、非阻塞 I/O 平台,可用于在 Rust 中编写异步应用程序。它基于 Rust 的 async/await 特性,使编写可扩展、高性能的应用程序变得更加简单。代理服务器在网页爬取过程中通过使用它们的 IP 地址来保护您的数字身份,从而绕过 IP 封禁和地理位置封锁。该库非常适合从 HTML 内容中提取数据,是网页爬取任务中的理想选择。如需了解更多关于这些依赖的使用示例和文档,请参阅它们各自的文档。要运行本项目,请确保您拥有可用的代理服务器。文件中使用相应的配置信息进行更新。
2025-04-03 07:45:00
1827
1
原创 在 Python Requests 中使用代理
在本指南中,你将学习如何在 Python Requests 中使用代理,特别是在 网络爬虫 时,通过更改 IP 和地理位置来 绕过网站限制
2025-04-01 07:45:00
1353
原创 如何在 Node.js 中使用代理服务器
现在注册,还送15美金注册奖励金 ---本文将为你演示如何在node-fetch、Playwright 和 Puppeteer 中集成代理。同时,你也会了解到在 Axios 中使用 Bright Data 的的方法。你也可以在中查看此指南。
2025-03-27 07:45:00
1366
原创 PowerShell Invoke-WebRequest 代理指南
是一个 PowerShell cmdlet,用于向 Web 服务器和 Web 服务发送HTTP、HTTPS 和 FTP请求。默认情况下,它会自动解析服务器产生的响应,并返回表单、链接、图片或其他重要的 HTML 元素集合。通常,它用于访问 REST API、从网络下载文件或与 Web 服务进行交互。下面是一个需要记住的关键参数Uri:发送请求的目标 Web 资源的 URI。Method:请求使用的 HTTP 方法(例如 GET、POST、PUT、DELETE)。
2025-03-20 07:45:00
1593
原创 如何在Visual Studio和 .NET 7中使用C#配置代理服务器进行网页抓取,并使用HtmlAgilityPack进行HTML解析
立即注册获得充值奖励,并开始自己的项目。本项目演示了如何在 Visual Studio 和 .NET 7配置代理服务器进行网页抓取,并使用 HtmlAgilityPack 进行 HTML 解析。通过使用代理服务器的 IP 地址,代理可以在网页抓取时保护您的数字身份,从而绕过 IP 封禁和地域限制。
2025-03-19 16:56:00
1280
原创 我们又放福利了!这次是网络抓取API(Web Scraper API)
已注册客户在主页(www.bright.cn)登录后,点击左下角导航栏里的【支付】,进入“计费”页面。此式可在右边看到 Apply a promo code字样,点击即可输入促销代码APIS25。未注册客户可以直接使用以下链接注册,并按上述步骤操作,即可获得折扣。促销代码有效期:即日起至2025年6月1日。其它促销可在“产品促销信息”专栏里查找!折扣有效期:促销代码生效后的180天内。随用随付(PAYG)客户也可享受折扣!输入折扣代码后,折扣立即生效!立刻注册或登录,兑换折扣!促销代码:APIS25。
2025-03-06 09:23:37
650
原创 AI也有无能为力的时候。。。
随着DeepSeek一夜之间的爆火,人们对AI的接受程度也越来越高。AI强大的输出能力,需要丰富而不失公正的全面化信息和数据的输入来做支撑。如果AI在寻找数据及信息的时候处处碰壁,那她也会渐渐去魅。谁又希望AI反馈给你的,是一堆被手里攥着宝贵数据的个大公司组织屏蔽后的”残次品“?但,公司正在阻止对任何看起来像 AI 的东西的访问。越来越多的公司正在阻止 AI 代理访问他们的网站。如果您可以访问 OpenAI 的 Operator,请尝试导航到 Reddit 或 Amazon,但您将无法访问。
2025-03-04 11:39:55
353
原创 在 Python 中使用 curl_cffi 进行网络爬虫
在本指南中,你将学习到:* curl_cffi 是什么以及它所提供的特性* 它是如何通过最小化基于 TLS 指纹的机器人检测来躲避反爬虫的* 如何在 Python 中配合它进行网络爬虫* 高级用法和方法* 与其他类似 HTTP 客户端的对比让我们开始吧!
2025-02-28 09:43:57
3213
原创 代理集成指南大全:代理IP服务+第三方工具
Changedetection代理集成——>Beautifulsoup代理集成——>HeliumScraper代理集成——>PhantomBuster代理集成——>Dolpion Anty代理集成——>BitBrowser代理集成 ——>Firebrowser代理集成——>Incogniton代理集成——>Multilogin代理集成——>Playwright代理集成——>SaleFreaks代理集成——>SessionBox代理集成——>FoxyProxy代理集成——>
2025-02-26 17:18:14
387
原创 新年送大礼 - 亮数据住宅代理全线5折!
转眼又是一年,春暖花开万物复苏之际,亮数据全体工作人员祝您:亮数据新年伊始,为您准备了动态住宅代理的5折大促!促销适用:本次促销适用于所有新注册用户及老客户。促销范围:本次促销适用于所有动态住宅代理产品的套餐,包括随用随付及包月套餐。折扣代码:RESIYEAR50代码使用有效期:至2025年5月14日折扣有效期:1年(自折扣代码使用日开始计,1年后自动恢复原价)新注册用户1,新用户请以此链接注册 ,注册成功并登录后,点击左下角导航栏里的【支付】,进入“计费”页面。2,此式可在右边看到 Apply a pro
2025-02-18 14:28:56
247
原创 如何使用 Python 抓取 Google 图片
我们的 SERP API 可解析 Google 图片,省去了您自己解析的麻烦。由于图片的二进制数据直接嵌入在网页中,我们无法追踪图片的真实来源。在接下来的章节中,我们将逐步构建抓取工具,并详细讲解代码的功能。抓取,Google 图片的抓取犹如解谜游戏,需要应对动态 CSS 选择器、Base64 编码等各种挑战。总而言之,Google 图片的抓取过程就像是在缺少部分拼图的情况下解谜。运行代码后,项目文件夹中会出现一个新文件夹,其中应该包含了所有下载的图片。不同的是,这次的图片都带有名称。
2025-01-16 17:35:57
750
原创 转向基于云的网络爬取,摆脱自建基础设施
可以说,很多网络爬取已经是基于云的,因为工程师更喜欢在地理相关的远程服务器上托管代码。然而,目前大多数任务仍然是手动完成的,只是不在本地。为了节省工程努力和运营成本,企业越来越多地选择将部分操作外包给数据基础设施提供商,如Bright Data。第一个目标当然是代理服务器,因为优质的IP如住宅代理自用采购是不经济的。但最近,外包网站解锁、基础设施扩展,甚至整个数据收集周期的需求(和供应)越来越多。基于云的网络爬取工具有各种形状和大小。
2025-01-16 17:19:22
2089
原创 抓取浏览器与无头浏览器
开发人员使用的工具会显著影响他们的网络刮取项目。考虑到现代网络刮取中遇到的挑战,包括反刮取措施和动态内容加载,选择正确的工具可以决定数据提取的成功与否。选择传统的无头浏览器或像 Bright Data Scraping Browser 这样的专业工具,不仅仅是个人喜好问题;它关乎效率、可靠性和提取数据的质量。在本文中,您将了解无头浏览器与 Bright Data Scraping Browser 之间的区别。
2025-01-16 17:14:11
783
原创 网页抓取与 API:你需要知道的
网页抓取是指从网页中提取公共数据的过程。它可以手动进行,但通常依赖于抓取工具或自动化软件,该软件会联系目标站点并从中提取数据。这种软件被称为网页抓取器。在我们的完整指南中了解更多关于什么是网页抓取。API 代表应用程序编程接口,它是一种机制,使两个软件组件能够以标准化方式进行通信。它由多个端点组成,每个端点提供特定的数据或功能。
2025-01-16 17:10:39
763
Go 代理爬虫 - 使用代理服务器,通过 Colly、Goquery、Selenium 进行网络爬虫的基础示例程序
2025-03-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人