自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 收藏
  • 关注

原创 Day20—Scrapy与Redis的分布式爬取

在分布式爬取中,多台机器(或多个爬虫实例)协同工作,共享待爬取的URL队列和已爬取的数据。这种方式可以平衡负载,提高爬取速度,并减少单个爬虫的失败对整体爬取任务的影响。Scrapy-Redis为Scrapy爬虫提供了强大的分布式爬取能力。通过将待爬取的URL和数据存储在Redis中,多个爬虫实例可以协同工作,提高爬取效率和稳定性。本文详细介绍了如何配置和使用Scrapy-Redis,包括环境准备、配置文件设置、创建RedisPipeline、编写爬虫以及启动分布式爬虫。

2024-07-14 10:07:45 16

原创 Day19—Scrapy框架高级特性

Scrapy框架的高级特性极大地提高了爬虫的灵活性和稳定性。信号机制允许组件之间的通信,管道可以处理复杂的数据流,下载延迟和自动限速有助于降低对目标网站的压力,而重试机制和代理支持则增强了爬虫的鲁棒性。通过本文的学习,你应该对Scrapy框架的高级特性有了深入的了解。这些特性不仅能够提升爬虫的性能,还能帮助构建更加稳定和可靠的爬虫系统。在后续的文章中,我们将继续探讨Scrapy在实际项目中的应用,以及如何与其他工具和数据库集成,实现更高级的数据抓取和处理。

2024-07-14 09:58:32 23

原创 Day18—使用Scrapy框架快速开发爬虫

Scrapy框架以其高性能、易用性和可扩展性而广受好评。它采用异步处理机制,能够同时处理多个请求,大大提高了爬虫的效率。从创建项目、编写爬虫规则,到设置中间件和管道,Scrapy提供了一套完整的解决方案。Scrapy的异步处理机制和丰富的组件系统,使得它成为数据抓取的强大工具。

2024-06-23 17:35:03 615

原创 Day17—JavaScript与Ajax请求分析

深入分析Ajax请求,如何在爬虫中处理这些动态加载的数据

2024-06-09 11:54:38 166

原创 Day16—API爬取与数据整合

API爬取是一种高效获取数据的方式,它提供了结构化的数据和较快的响应速度。通过整合和分析不同来源的API数据,可以得出更有价值的结论。然而,在使用API时,必须遵守API的使用规范和法律法规,确保数据爬取和使用的合法性。

2024-06-09 11:35:53 65

原创 Day15—图像爬虫与简单处理

学习了如何爬取网页中的图片,以及如何使用Python的Pillow库进行基本的图像处理。

2024-05-29 23:12:32 686

原创 Json获取key总是报错还又臭又长?那是因为你没有用到我这个safeget自定义方法

Json获取key总是报错还又臭又长?那是因为你没有用到我这个safeget自定义方法

2024-05-19 11:09:31 276

原创 Day14—数据清洗与处理实战(关于用户评论)

为数据分析和机器学习提供高质量的数据输入,实际案例包含用户评论的数据集,我们需要清洗和处理这些数据以进行情感分析

2024-05-18 23:06:48 41

原创 为什么OpenAI突然把GPT-4o免费了?

OpenAI免费提供GPT-4o肯定是综合考量的结果,它的目的无非就是在扩大影响力、优化技术、收集数据,同时也为未来的商业模式布局,看似OpenAI亏了,其实一点也不亏。哦对了,忘了提一嘴了,GPT-4o不是完全"免费"的哦,OpenAI 提供的“免费”并非没有限制。对于普通用户而言,现在可以免费体验到GPT-4级别的AI服务。而Plus用户则可以抢先体验GPT-4o,并享受高达5倍的消息上限。

2024-05-18 11:23:32 742

原创 大乌龙!Python打印不是str而是tuple?就是多了这东西

某段时间在编写python打印代码时,出现了预料之外的结果,也是很多初学者会犯的错误。示例代码如下,看看有什么区别# 第一种方式# 第二种方式没错,第一种方式在赋值后多了逗号,导致它们的结果是:第一种方式的打印类型会变成元组,而第二种则是正常打印字符串。

2024-05-12 18:03:07 169

原创 Day13—网络请求的模拟与会话管理

requests库的Session对象为我们提供了强大的会话管理功能,可以方便地模拟浏览器的会话行为,包括Cookie的处理和持久化。通过使用Session对象,我们可以在爬虫中实现更复杂的行为,如登录验证、Cookie管理等。同时,Session对象的高级功能也为爬虫的开发提供了更多的灵活性。

2024-05-06 13:31:14 23

原创 Day12—遵守robots.txt协议

robots.txt是什么呢?有什么用处呢?

2024-05-06 13:25:45 19

原创 Day11—用户代理与IP代理

用户代理和IP代理是网络爬虫中重要的工具,它们可以提高爬虫的隐蔽性和安全性。合理设置用户代理和使用代理服务器,可以帮助爬虫规避目标网站的反爬措施,提高数据爬取的成功率。然而,使用代理也需要注意合法性和道德性,遵守相关法律法规和网站的使用协议。在后续的文章中,我们将继续探讨更多关于爬虫技术和实践的话题。

2024-04-20 17:41:05 48

原创 Day10—多线程与异步爬虫提升效率

我们如何减少爬取数据所需的时间?可以运用到哪些技术呢?

2024-04-14 10:33:31 587

原创 Day09—数据存储与管理

你是为了什么采取爬虫的呢?

2024-04-06 21:13:21 124

原创 Day08—爬虫中的异常处理与调试技巧

异常处理和调试是爬虫开发中不可或缺的部分,这能让你更好地应对各种意外情况。

2024-04-06 20:36:09 622 1

原创 Day07—处理动态加载的内容

Selenium是一个自动化测试工具它允许你编写代码来模拟用户在浏览器中的操作。Selenium可以控制浏览器,执行JavaScript,从而使得我们可以与动态网页交互,并获取到完整的页面内容。Selenium支持多种浏览器,包括ChromeFirefoxSafari等,并且有对应的WebDriver用于与浏览器进行通信。处理动态加载的内容是网络爬虫中的一个高级话题。通过本文的学习,你应该了解了动态网页的加载机制,并且知道如何使用Selenium库来处理JavaScript渲染的页面。

2024-03-31 23:08:35 51

原创 Day06—XPath与lxml库的应用

在网络爬虫的实战中,XPath和lxml库是两个强大的工具,它们可以帮助我们进行更精确的元素定位和数据提取,也是爬虫必学技巧之一。本文将介绍XPath的概念和语法,并会给出示例和快速定位xpath的方法。

2024-03-23 23:41:36 31 1

原创 Day05—使用BeautifulSoup进行数据提取

在网络爬虫的实战中,BeautifulSoup是一个非常有用的工具,它可以帮助我们从网页中提取所需的数据,爬虫前期必学了解的一个第三方库。

2024-03-23 18:53:52 29 1

原创 Day04—理解网页结构与元素定位

在网络爬虫的领域中,能够准确地定位和提取网页中的元素是至关重要的技能。本文将带你了解如何通过HTML结构和CSS选择器来理解和定位网页中的元素,为你的爬虫之旅打下坚实的基础。

2024-03-23 18:53:10 38 1

原创 Day03—爬取掘金网首页文章并解析

在前面的理论知识后,大致对爬虫以及快速获取初步爬虫代码有一些理解了今天以掘金网为例,爬取首页文章标题、作者以及url等信息没有安装Python环境的请先自行去找教程安装。

2024-03-23 18:52:35 44 1

原创 Day02—快速构造初步Python爬虫请求

HTTP协议定义了客户端(通常是Web浏览器)与服务器之间的通信规则。它是一种无状态的请求/响应协议,意味着服务器不会保存任何关于客户端请求的状态信息。每次的请求都是独立的,服务器仅根据当前请求返回响应,而不会考虑之前的交互。

2024-03-23 18:51:53 616 1

原创 Day01—初识爬虫

什么是爬虫呢?爬虫违法吗?

2024-03-22 08:00:00 731 1

原创 python将26个字母随机组合成N个可读的英语单词,我是这么做的!!

自制随机英语单词生成器?!!

2024-03-13 13:05:33 932

原创 ChatGPT 消息发不出去了?我找到解决方案了

今天忽然发现 ChatGPT 无法发送消息,能查看历史对话,但是无法发送消息。

2024-03-09 12:12:45 911 3

原创 【揭秘】ChatGPT4.0和3.5有什么区别?ChatGPT4.0比3.5强多少?值不值购买?

哪个会更强一点呢,我该如何选择?

2024-03-03 21:45:31 1619

原创 Python将JavaScript转换为json

Python将JavaScript转换为json,避免出现Error decoding JSON: Expecting property name enclosed in double quotes

2023-11-28 13:17:13 206

原创 WARNING: Encoding detection on empty bytes, assuming utf_8 intention.解决方法

WARNING: Encoding detection on empty bytes, assuming utf_8 intention.解决方法

2023-11-24 17:00:30 75

原创 【精选篇】对Oracle与MySQL不同的SQL命令、语法、事务的全面解析

全面解析Oracle与MySQL之间的不同之处,包括SQL命令、语法和事务管理等...

2023-10-22 00:40:39 245 1

原创 【理论篇】Oracle和MySQL的各功能应用领域差异全方位解析

不知如何选择Oracle和MySQL数据库?从各功能与应用领域的差异全方位解析,看这一篇足够了!

2023-10-21 18:45:01 282 1

原创 py打包exe后报错:DLL load failed while importing psutil windows

py打包exe后报错:DLL load failed while importing psutil windows

2023-10-19 13:07:00 380

原创 Python动态构造变量名,实现html占位符替换

告别繁琐的 HTML 编辑:用 Python 创造你的自动化占位符替代方案!

2023-10-15 00:45:31 154 1

原创 针对教育 eduSrc 平台制作搜索脚本

eduSrc平台搜索脚本

2022-02-08 20:37:16 2170

原创 CTFshow击剑杯osint——人家想玩嘛,人有点多超详细解法

首先,在这里跟师傅们说一声抱歉,因为这次是自己第一次比较正式的出Osint题,可能有一些地方没有注意到,没有认真审核,给师傅们带来了麻烦,真的很抱歉!!以下是人家想玩嘛、人有点多的详细解法及思路:人家想玩嘛百度识图,可以知道是土豪之邦——迪拜,也叫杜拜(Dubai)根据图片,提取信息:大片类似人工湖的地方、左边凸出来的建筑、大批高建筑群。谷歌地球查找迪拜,根据已知信息锁定地区拉近距离,找到大致拍摄位置,大致为箭头根部位置进入街景,多尝试几次,大概在中间一点的位置,找到拍摄位置放大得到

2021-11-14 11:15:41 1391 1

原创 安装向日葵后亮度无法调节

安装向日葵后,亮度无法调节,快瞎了都,记录一下我的解决方法!!!点击:开始——管理工具—计算机管理—设备管理器——监视器——Generic Monitor(orayDPMS)右键——更新驱动程序——选择 “浏览我的计算机以查找驱动程序软件”选择红色框选项,点击下一步选择“通用即插即用监控器”——点击下一步完成这样就可以调节亮度了。以上是我安装了向日葵后,亮度无法调节时的方法。希望对你有用,毕竟眼睛重要嘛嘻嘻...

2021-10-31 11:41:54 4265 5

原创 Java web | 登陆后,隐藏登陆按钮并显示用户名

目录JSTL的概念代码步骤效果图总结由于自己的主页是采用jsp来实现动态页面,在网上也找不到什么好方法,所以就根据自己学的来琢磨琢磨来实现想要的 登陆后隐藏登陆按钮 等操作。在实现代码之前,需要了解JSTL的一些概念。JSTL的概念从JSP1.1规范开始,JSP就支持使用自定义标签,这不仅可以大大降低JSP页面的复杂度,还增强了代码的重用性。但是同一功能的标签由不同的Web应用厂制定可能是不同的,这就导致市面上出现了很多功能相同的标签,让网页制作者无从选择。所以为了解决问题,Sun公司就制定了一套

2021-01-06 21:55:20 3848

Unity3D插件、人物城市模型

Unity3D插件、人物城市模型,不想浪费,实用资源分享 希望能帮到其他Unity使用者!! 百度网盘分享

2023-11-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除