自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(128)
  • 资源 (4)
  • 收藏
  • 关注

原创 【Python】如何利用MinHash和LSH进行大规模文本数据去重

通过MinHash和LSH,我们能够有效地在没有数据库支持的情况下处理和去重大量文本数据。这种方法特别适合处理语义上相似的文本,而不仅仅是字面上完全相同的文本。使用这种方法可以显著提高数据处理的效率和准确性。

2024-04-19 23:50:41 150

原创 【MySql】 MySQL中的MAX()和MIN()函数的高效使用

我说过 我不闪躲我非要这么做讲不听 也偏要爱更努力爱 让你明白没有别条路能走你决定 要不要陪我讲不听偏爱靠我感觉爱等你的依赖对你偏爱痛也很愉快🎵 张芸京《偏爱》MySQL数据库是世界上最流行的关系型数据库管理系统之一,它不仅提供了存储数据的功能,还支持复杂的查询和数据操作。在数据分析中,我们经常需要找到一个数据集中的最大值和最小值。MySQL为此提供了两个非常有用的函数:MAX() 和 MIN()。接下来,我们将探讨这两个函数的使用方法以及一些高级技巧。

2024-04-19 13:36:26 261

原创 【MySql】MySQL 中的 INNER JOIN 和 LEFT JOIN 使用指南

掌握何时使用 INNER JOIN 和 LEFT JOIN 对于构建有效的数据库查询至关重要。使用 INNER JOIN 时,你可以找出在两个表中都存在的数据。而 LEFT JOIN 则允许你看到左侧表的所有数据,同时查看右侧表中的匹配项。这两种 JOIN 有各自的用途,理解它们的差异和适用情况是进行数据库查询和数据分析的基础。希望本文能帮助你在使用 MySQL 进行数据查询时做出更明智的选择。

2024-04-18 23:03:11 353

原创 【MySql】如何在 MySQL 中定义和使用变量

用户定义的变量是临时存储在 SQL 会话中的变量,可以在该会话的任何地方使用。这种类型的变量无需声明数据类型,因为 MySQL 会根据上下文自动推断。定义用户定义的变量使用用户定义的变量这种方法非常适合动态构建查询条件或传递参数。MySQL 提供了多种类型的变量,以适应不同的应用场景。用户定义的变量适用于简单的会话内数据传递,局部变量适合在复杂的存储过程中使用,而会话变量则用于调整和优化数据库会话的行为。根据您的具体需求,合理选择和使用这些变量,将有助于提升数据库操作的效率和灵活性。

2024-04-18 09:52:56 264

原创 【Python】Pandas常用基础使用案例

Pandas是一个开源的Python库,提供了高性能的、易于使用的数据结构和数据分析工具。最核心的数据结构是DataFrame,它是一种表格型的数据结构,可以看作是一个二维数组,但是与数组不同,它可以处理不同类型的数据。通过上述内容的介绍,我们了解到Pandas是一个非常强大的库,它能够帮助我们以非常高效的方式来处理和分析数据。上手Pandas并不难,但要真正掌握它,则需要不断地实践和探索。希望这篇博客能够帮助你开始使用Pandas进行数据分析,并激发你探索更多高级功能的兴趣。

2024-04-17 22:47:46 307

原创 【Python】如何使用Python中的pandas库和scikit-learn库来实现逻辑回归模型

他们说快写一首情歌雅俗共赏落笔传神还要容易传唱上得厅堂也下得厨房就像我一直在找的姑娘快写一首情歌雅俗共赏打完字谜还要接着打榜如果胡同弄堂全都播放气韵里居然添了些孤芳自赏🎵 许嵩《雅俗共赏》

2024-04-17 22:28:23 275

原创 【Linux】提升Linux命令行效率:光标移动和文本操作的键盘快捷键

Just 那么年少还那么骄傲两眼带刀不肯求饶即使越来越少即使全部都输掉也要没心没肺地笑Just 那么年少我向你招手让你看到我混账到老天涯海角天荒地老只等你摔杯为号🎵 朴树《Forever Young》Linux命令行界面(CLI)是许多开发者、系统管理员和技术爱好者进行高效工作的强大工具。熟练使用命令行不仅可以提高工作效率,还能在处理复杂任务时节省宝贵的时间。

2024-04-16 21:35:27 476

原创 【Python】如何在Ubuntu上设置Python脚本开机自启

通过上述两种方法,你可以轻松设置Ubuntu上的Python脚本在开机时自动执行。选择适合你需求的方法,确保在生产环境中进行充分测试。这样你就可以确保你的应用或服务能在系统启动时无缝运行。

2024-04-16 21:11:27 910

原创 【Clickhouse】如何在ClickHouse中删除集群表数据

幸福就是该结束的时候不再强求在你应该珍惜的时候学会别无所求幸福就是去包容却从不会遗忘自我懂得爱自己才更加辽阔🎵 刘若英《幸福就是》在使用ClickHouse进行大规模数据分析时,管理和维护数据的有效性和一致性是至关重要的。ClickHouse是一个面向列的数据库,专为快速读取操作设计。虽然它不是为频繁的修改操作设计的,但有时候我们确实需要在集群环境中对数据进行删除或更新。这篇博客将详细介绍如何在ClickHouse集群表中删除数据,并提供一些操作指南和最佳实践。

2024-04-15 22:10:12 420

原创 【MySql】 如何使用 MySQL 中的 ON DUPLICATE KEY UPDATE 语句

ON DUPLICATE KEY UPDATE 是一个 MySQL 语句的扩展,用于 INSERT 语句。当尝试插入的数据在表中已存在相同的唯一索引或主键时,这个语句可以指定一些更新操作,而不是让插入失败。这使得用户可以在单个查询中便捷地执行“尝试插入,如果存在则更新”的操作。

2024-04-15 21:56:22 468

原创 【Linux】Linux du命令:掌握磁盘使用情况

Linux系统管理员和用户经常需要检查文件和目录占用的磁盘空间。du(Disk Usage)命令是Linux中一个非常重要的工具,它能够帮助我们了解哪些文件和目录在磁盘上占用了多少空间。这篇博客将带你详细了解如何使用du命令,并介绍一些实用的技巧。du 命令用于查看目录和文件占用的磁盘空间。默认情况下,du 显示的是当前目录及其子目录的磁盘使用情况。du 是一个非常实用的命令,用于监控和管理磁盘空间。通过熟练使用 du,你可以轻松找出空间占用大户,优化磁盘空间的使用。

2024-04-14 20:41:02 606

原创 【Python】精通 SQLAlchemy:执行原生 SQL 语句的艺术

欢迎进入 SQLAlchemy 的世界,一个强大的 Python SQL 工具包和对象关系映射(ORM)系统。在本篇博客中,我们将深入探讨如何在 SQLAlchemy 中执行原生 SQL 语句,无论是出于性能考虑还是为了执行复杂的查询和操作,直接使用 SQL 语句有时是必须的。我们将一步一步地了解如何利用 SQLAlchemy 来执行原生 SQL,让你能够更加灵活地与你的数据库进行交互。通过上述方法,你可以在 SQLAlchemy 中灵活地执行任何原生 SQL 语句。

2024-04-14 20:33:09 626

原创 【Python】使用 aiomysql 进行异步MySQL操作的实用指南

aiomysql提供了一种强大的方式来异步地与MySQL数据库进行交互,这对于构建现代、高性能的异步应用程序至关重要。通过本文的介绍,你应该能够开始在你的Python项目中使用aiomysql来处理数据库任务。这将大大提高你的应用性能,尤其是在处理大量并发请求的情况下。

2024-04-12 21:32:56 548

原创 【Hadoop】Hive导入导出数据指南

了解如何在Hive中导入和导出数据对于数据科学家和Hadoop管理员来说是一个重要的技能。无论是简单地将文件从本地系统加载到Hive,还是使用高级工具如Sqoop进行复杂的数据迁移,Hive提供了多种强大的工具来帮助用户高效管理和查询大数据。通过合理利用这些工具,可以极大地提高数据处理的效率和效果。

2024-04-12 21:00:18 657

原创 【爬虫】基站信息采集案例

经历绝望不再逞强不想去圆场。是不是爱你我还算有点天分。我有点疼但是我还能忍。我们都一样想留住月光。我们都一样不卑也不亢。

2024-04-11 23:47:05 173

原创 【Python】Python中大文件切割的艺术

处理和切割大文件是数据处理中常见的需求。Python通过提供对文件的逐行或逐个对象的读取能力,使得处理这类问题变得简单高效。通过上述示例,我们可以看到,无论是文本文件还是JSON文件,切割大文件的基本思路都是逐步读取并根据需求写入到新的文件中。掌握这些。

2024-04-11 22:11:34 393

原创 【Linux】SCP命令:文件传输的简易指南

在使用SCP时,务必确保你有足够的权限访问目标路径。SCP在传输大量小文件时可能比较慢,对于这种情况,你可能会考虑使用rsync等其他工具。为了安全,始终确认文件路径和主机地址正确无误,避免不必要的数据泄露或丢失。SCP是一种快速、安全的文件传输工具,凭借其简洁的命令行接口和SSH的安全性,它成为了许多开发者和系统管理员的首选工具。希望本文能帮助你掌握SCP命令的基本用法,提高你的工作效率。

2024-04-10 22:51:00 476

原创 【爬虫】在Scrapy中配置随机User-Agent中间件

为了更进一步模拟真实用户的行为,我们可以创建一个中间件来为每个请求随机设置不同的UA。安装fake_useragent首先,安装fake_useragent库,它提供了一个大量常见浏览器UA的列表,支持随机获取UA。创建随机UA中间件在Scrapy项目的middlewares.py文件中,创建一个新的中间件类RandomUserAgentMiddleware。# 为每个请求随机设置一个UA配置中间件。

2024-04-10 22:43:14 1198

原创 【Python】如何将轨迹node路径匹配到路网edge信息

数据准备:示例中使用的数据包括路网数据(edges.shp)和轨迹节点数据。加载路网数据:利用GeoPandas和NetworkX,我们首先读取路网的边缘信息,构建出路网模型。轨迹到路网的映射:对于每一条轨迹,我们将轨迹的节点映射到路网的边缘上,并保存这些信息。

2024-04-09 19:20:06 856

原创 【Python】使用广度优先搜索生成路网轨迹:探索波尔图的道路网络

广度优先搜索是一种图遍历算法,它从一个节点开始,先访问距离开始节点最近的节点,然后是次近的节点,以此类推。这种方法在路网分析中尤其有用,因为它能够生成从给定起点出发到达所有其他节点的最短路径(在边的权重都相等的情况下)。

2024-04-09 10:58:44 306

原创 【Python】探索 FunNLP:让自然语言处理更有趣

自然语言处理(NLP)是人工智能领域中的重要分支,但有时候它可能显得有些乏味。幸运的是,有了 FunNLP,我们可以为 NLP 注入一些乐趣。本文将介绍 FunNLP 的基本概念、使用方法以及一些有趣的应用示例,让你发现 NLP 的另一面!

2024-04-08 23:44:38 337

原创 【Linux】探索 Linux 中 ls 指令的妙用

在 Linux 中,ls 命令是最常用的命令之一,它用于显示目录中的文件和文件夹。然而,许多用户可能只是简单地使用 ls 来列出文件,而不知道它的更多妙用。本文将深入探讨 ls 命令的各种选项和技巧,以便你能更好地利用这个强大的工具来管理文件。

2024-04-08 19:05:30 380

原创 【Python】探索Python中的aiohttp:构建高效并发爬虫

aiohttp是一个提供异步Web服务的库,支持客户端和服务端的Web编程。它允许你使用async/await语法发起异步网络请求,是构建高效并发爬虫的理想选择。

2024-04-07 20:29:04 447

原创 【Vue】 Vue项目中的跨域配置指南

处理跨域请求是前后端分离项目开发中的常见需求。Vue CLI的代理配置提供了一种便捷的方式来解决开发环境下的跨域问题,而在生产环境中,通常需要通过后端服务的CORS设置来实现跨域资源共享。正确配置跨域策略,不仅能够保证项目的开发效率,还能够确保应用的安全性。希望本文能帮助你在Vue项目中有效地配置和处理跨域请求。

2024-04-07 20:19:57 470

原创 【Linux】 Vim:掌握高效编辑的艺术

Vim是一个非常强大的文本编辑器,只要熟练掌握了这些基本命令,你就能体会到它带来的高效编辑体验。尽管开始时可能会感到有些困难,但一旦习惯了Vim的操作方式,你可能就再也不想回到其他编辑器了。Vim不仅是一个编辑器,更是一个提高你编程效率的工具。希望本文能帮助你踏出Vim学习之旅的第一步。

2024-04-07 20:12:59 537

原创 【Linux】掌握Linux中的tail命令:实时日志跟踪和文件分析

如果你想查看不同于默认值的行数,可以使用-n选项。tail命令是Linux用户的宝贵工具,特别是对于需要实时监控日志和文件末尾内容的用户。通过熟练使用tail命令及其选项,你可以轻松管理和分析文件数据。希望本文能帮助你更有效地使用tail命令,让你的Linux使用经验更加丰富和高效。

2024-04-07 20:02:37 421

原创 【Linux】 探索Linux中的cat指令:常用用法一览

在Linux和Unix系统中,cat(concatenate的缩写)是一个非常常见且强大的命令行工具,主要用于读取、合并和显示文件的内容。从新手到高级用户,cat命令都是日常工作中不可或缺的工具。本文将介绍cat命令的几种常用用法,帮助你更有效地在Linux环境下工作。

2024-04-07 19:48:42 440

原创 【Nginx】配置Nginx实现跨域策略

CORS是一个W3C标准,允许服务器指定哪些来源可以访问其资源。这是通过服务器发送一系列CORS相关的HTTP响应头来实现的。这些响应头决定了哪些网站可以请求服务器的资源,以及哪些HTTP请求方法和头部字段被允许。

2024-04-07 19:42:47 450

原创 【JavaScript】如何在npm中切换源以及使用指定源安装依赖

切换npm源可以帮助我们更快地安装依赖,提高开发效率。无论是使用npm命令还是nrm工具,都可以轻松完成源的切换。同时,通过在安装依赖时指定源,我们可以更灵活地管理项目的依赖安装。希望本文能帮助你更高效地使用npm进行项目开发。

2024-04-07 18:47:23 740

原创 【JavaScript】使用 NVM 管理 Node.js 版本

使用 nvm 管理 Node.js 版本可以极大地提高开发效率,特别是在同时处理多个项目,这些项目依赖于不同版本的 Node.js 时。通过简单的命令,你可以安装、切换、甚至卸载不同版本的 Node.js,从而确保你的开发环境既高效又灵活。

2024-04-03 09:36:40 880

原创 【python】Ubuntu使用playwright环境配置

愿晚风心里吹吹散我的泪似风筝把你追愿等你一辈子真情留住你梦里归家那一扇灯心中所属唯独你不管天似海深今生再没遗憾即使分开仍念记伤心得你恻隐温馨我这半生🎵 阿梨粤《晚风心里吹》Playwright 是一个由 Microsoft 开发的开源自动化库,它允许开发者以编程方式控制 Chromium, Firefox, 和 WebKit 这样的现代浏览器。Playwright 能够执行跨浏览器的端到端测试,非常适合自动化测试、爬虫开发以及生成网页截图和 PDF。

2024-04-02 17:49:58 1026

原创 【Python】 使用Apache Tika和Python实现zip、csv、xls等多格式文件文本内容提取

Apache Tika是一个功能强大的内容分析工具,可以帮助开发者提取文档、图片以及压缩包中的文本内容和元数据。通过Python的Tika库,我们可以轻松将这些功能集成到Python应用中,无论是数据清洗、内容提取还是自动化文档处理任务,Tika都能大显身手。使用Tika处理压缩包特别方便,它自动管理文件解压和内容提取的复杂性,使得开发者可以专注于数据分析和处理逻辑。

2024-04-02 10:29:38 748

原创 【Python】文件内容编码类型检测

chardet是一个编码检测库,它可以帮助我们预测未知编码的文本数据的编码方式。它支持检测多种编码,包括但不限于UTF-8、GBK、ISO-8859-2等。chardet的工作原理是通过分析文本数据的字节模式来预测编码。

2024-04-01 14:16:13 637

原创 【Go】 Go Modules 常用指令一览

其实我早应该了解你的温柔是一种慈悲但是我怎么也学不会如何能不被情网包围其实我早应该告别你的温柔和你的慈悲但是我还深深的沉醉在快乐痛苦的边缘🎵 阿桑《温柔的慈悲》go.sumvendorgo.modGo 1.11 版本引入的 Go Modules 系统,为 Go 语言项目的依赖管理带来了革命性的改进。Go Modules 允许开发者更容易地管理项目的依赖关系,不再依赖于 GOPATH。

2024-04-01 09:45:00 363

原创 【Go】Goland如何折叠控制台输出信息

不过是白驹之过一场梦。有道是人生得意须尽欢。

2024-03-31 06:57:10 242

原创 【Linux】Ubuntu上使用Zip的全面指南

在日常的文件管理过程中,我们经常需要将多个文件或文件夹压缩成一个压缩包,以便于存储或分享。zip是Linux系统,特别是Ubuntu中一个广泛使用的压缩工具,它支持多种压缩算法,并且使用方便。本文将教你如何在Ubuntu系统中使用zip命令来压缩和解压文件。

2024-03-31 06:56:25 240

原创 【Go】goroutine并发常见的变量覆盖案例

在 Go 中,goroutine 是并发执行的,这意味着它们是在程序的其他部分独立运行的轻量级线程。但是,因为这些 goroutine 可能在 for 循环结束后才开始执行,所以它们都可能打印出同一个数字(通常是最后一个迭代的数字,即 4),而不是每个 goroutine 打印出其对应迭代的数字。因此,如果 goroutine 内部使用了循环变量,例如上面例子中的 i,并且 goroutine 的执行被推迟到循环完成之后,所有的 goroutine 可能会看到 i 的最终值,因为它们都。

2024-03-30 21:42:17 536

原创 【Linux】Ubuntu中Tar命令的终极指南

在处理大量文件和目录时,将它们组合成单个文件既方便存储也便于传输。tar(Tape Archive)命令是Linux和Unix系统中广泛使用的工具,用于文件的打包和压缩。本文将向你展示如何在Ubuntu中有效使用tar命令来打包、压缩及解压文件。

2024-03-30 09:45:00 498

原创 【MySql】利用DataX同步mysql数据,多数据源数据同步方案

DataX提供了一个强大且灵活的平台,用于在不同的数据库和数据仓库之间同步数据。通过本文的指导,您应该能够理解如何使用DataX同步两个MySQL数据库之间的数据。DataX的配置和使用非常直观,使得即使是数据同步的新手也能轻松上手。DataX数据源参考指南类型数据源Reader(读)Writer(写)文档RDBMS 关系型数据库MySQL√√读写Oracle√√读写OceanBase√√读写SQLServer√√读写PostgreSQL√√读写DRDS√√读写。

2024-03-29 15:50:13 876

原创 【Python】深入探索tqdm:美化你的Python脚本进度条

在处理长时间运行的脚本时,给用户提供反馈信息是提高用户体验的关键。Python社区提供了一个强大的工具tqdm,它能够在几乎没有任何努力的情况下,在你的脚本中添加进度条。这篇博客将深入探讨tqdm的使用方法,并通过实际案例展示其如何美化和优化你的Python脚本。

2024-03-29 09:45:00 357

逆向-音乐学家方大刚-快速定位hashMap

逆向-音乐学家方大刚-快速定位hashMap

2024-03-16

逆向案例2-方大刚-动态调用

逆向案例2-方大刚-动态调用

2024-03-15

逆向案例-frida-demo-apk-01

逆向案例-frida-demo-apk-01

2024-03-13

python自动化工具Selenium与playwright去除webdriver检测

自动化工具Selenium与playwright去除webdriver检测js

2024-03-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除