- 博客(84)
- 收藏
- 关注
原创 SQL避坑指南:求“平均值”时,到底该用 AVG() 还是手动相除?
这篇博客帮你彻底搞懂 SQL 里求“平均值”的两大流派。核心就一句话:看数据在“单表查询”还是“多表联查”。一人一行用 AVG(),一人多行必须手动相除 COUNT/COUNT(DISTINCT)。搞混就会掉进数据膨胀的坑,看完这篇再也不会算错人均指标!
2026-05-11 21:42:55
190
原创 SQL窗口函数详解:用SUM() OVER()轻松搞定累计求和与滑动平均
本文解析了 SQL 窗口函数中 SUM() OVER() 的核心用法,重点阐述了如何利用 PARTITION BY 进行分组累计求和。同时,文章通过实战案例详细对比了 ROWS(物理行)与 RANGE(逻辑值范围)的区别,帮助读者掌握精确控制滑动窗口范围的技巧。
2026-05-10 01:33:30
362
原创 MySQL字符串分割:SUBSTRING_INDEX实战
本文解析了SUBSTRING_INDEX函数的双向截取语法,展示了提取首尾内容及“套娃”获取中间数据的实战技巧,是处理非规范化字符串的高效方案。
2026-05-07 17:34:06
12
原创 SQL日期魔法:date_add函数实战指南
本文解析了SQL中DATE_ADD函数的核心语法,展示了如何利用它灵活处理日期加减运算以计算留存率等关键指标。
2026-05-07 17:05:46
47
2
原创 SQL中的UNION与UNION ALL:从销售报表合并说起
本文以销售报表合并为例,对比了SQL中UNION与UNION ALL的本质区别:前者自动去重但消耗性能,后者全量保留且效率高。
2026-05-07 15:33:35
312
原创 SQL模糊查询全攻略:LIKE通配符详解与避坑指南
本文系统介绍了SQL中LIKE操作符的四种核心通配符(%、_、[]、[^])及其应用场景,通过具体示例演示了如何实现姓名字段的多条件模糊匹配。
2026-05-07 13:25:46
235
原创 【SQL学习笔记2】深入理解 CASE WHEN 的魔法用法
主要围绕 SQL 中的 CASE WHEN 用法展开,并通过一个完整的员工表案例进行实战演练。
2025-06-10 18:19:04
588
原创 【SQL学习笔记1】增删改查+多表连接全解析(内附SQL免费在线练习工具)
这是一篇面向初学者的 SQL 学习笔记博客,涵盖了建表、增删改查、聚合函数、分组查询、连接查询等核心 SQL 操作,并推荐了 SQLiteviz 这个在线练习工具。
2025-06-10 17:19:51
1388
1
原创 【基于阿里云搭建数据仓库(离线)】使用UDTF时出现报错“FlatEventUDTF cannot be resolved”
使用UDTF时出现报错“FlatEventUDTF cannot be resolved”
2025-06-08 13:34:57
793
原创 【基于阿里云搭建数据仓库(离线)】MaxCompute只支持到Java8导致UDTF加载失败
【基于阿里云搭建数据仓库(离线)】MaxCompute只支持到Java8导致UDTF加载失败【解决方案】确认MaxCompute内部JVM为1.8,建议卸载JDK11并从Oracle官网下载JDK8进行配置。
2025-06-02 21:42:21
339
5
原创 【基于阿里云搭建数据仓库(离线)】IDEA导出Jar包(包括第三方依赖)
【基于阿里云搭建数据仓库(离线)】IDEA导出Jar包(包括第三方依赖)
2025-06-02 21:31:13
535
原创 【基于阿里云搭建数据仓库(离线)】Data Studio创建资源与函数
【基于阿里云搭建数据仓库(离线)】Data Studio创建资源与函数
2025-06-02 21:08:49
1193
1
原创 【非线性规划求解系列】MATLAB中fmincon函数:高效求解约束非线性多变量函数最小值
本文详细介绍了MATLAB中的fmincon函数,该函数专门用于寻找带有约束条件的非线性多变量函数的最小值。文章从fmincon的基本语法入手,逐步深入到其应用实例,包括线性不等式约束、线性等式与不等式混合约束、具有边界约束的优化问题、非线性约束优化以及如何获取目标函数值和使用额外输出来验证解的正确性。此外,还探讨了如何获取fmincon的所有输出以及exitflag参数如何帮助理解算法停止的原因。
2024-10-10 10:51:55
11859
3
原创 【线性规划求解系列】MATLAB中使用linprog解决线性规划问题
本文详细介绍了如何在MATLAB中使用linprog函数来解决各种类型的线性规划问题。首先概述了linprog的基本语法,随后通过五个具体实例演示了如何处理仅含有线性不等式约束、同时含有线性等式和不等式约束、以及包含所有类型约束的线性规划问题。此外,还展示了如何获取优化过程中的目标函数值及退出条件,帮助读者更好地理解和应用linprog函数进行优化计算。无论是初学者还是有一定经验的用户,都能从中受益,掌握使用MATLAB进行线性规划的基础知识和技巧。
2024-09-19 11:00:55
3667
原创 Latex入门指南:从下载到安装的全面教程
本篇博客旨在为初学者提供一个全面的Latex入门指南,涵盖了从下载、安装到配置Texlive和TexStudio的详细步骤。通过本指南,您将了解到如何正确安装Latex环境并成功运行第一个Latex文档,为撰写高质量的科技论文或书籍打下坚实基础。
2024-08-05 13:52:24
7503
3
原创 【知识图谱系列】(实例)python操作neo4j构建企业间的业务往来的知识图谱
本章节通过聚焦于"金额"这一核心属性,构建了一幅知识图谱,旨在揭示"销售方"与"购买方"间的商业互动网。在这张图谱中,绿色节点象征着购买方,而红色节点则代表了销售方。这两类节点间的紧密连线,不仅映射了双方在市场活动中的合作桥梁,还特别以不同颜色编码的线条区分了交易的规模等级:细分为1000万级别、2000万级别、5000万级别乃至8000万级别的交易纽带,以此精准描绘出商业交易的多样性和规模层次。
2024-06-28 18:38:13
1313
3
原创 【知识图谱系列】Neo4j使用Py2neo与python进行链接
目录一、安装py2neo二、打开Neo4j三、使用Python操作Neo4j一、安装py2neopip install --upgrade py2neo -i https://pypi.tuna.tsinghua.edu.cn/simple可以先阅读下文档:https://py2neo.org/v4/index.html这个文档里有好多关于这个工具包的API介绍,也就是如何使用这个工具包。二、打开Neo4j在cmd里输入neo4j.bat console,然
2024-06-28 17:04:48
1727
原创 【知识图谱系列】Neo4j数据库操作全攻略:增删改查与快速清空技巧
本文将全面介绍Neo4j图数据库的基本操作,包括如何增加节点和关系、如何删除节点和关系、如何修改节点和关系的属性以及标签,以及如何进行查找操作。此外,还将分享一个实用的小技巧——如何快速清空Neo4j数据库中的所有数据。
2024-06-27 16:17:04
8120
原创 【知识图谱系列】一步步指导:安装与配置JDK和Neo4j的完美搭配
本文将提供详细的步骤,介绍如何下载、安装和配置Java开发工具包(JDK)以及流行的图形数据库Neo4j。将从选择合适的JDK版本开始,然后是下载和配置环境变量,接着以同样的方式处理Neo4j。最后,会通过一些检查步骤来确保一切安装正确。
2024-06-27 13:37:48
2171
3
原创 【自然语言处理系列】掌握jieba分词器:从基础到实战,深入文本分析与词云图展示
本文旨在全面介绍jieba分词器的功能与应用,从分词器的基本情况入手,逐步解析全模式与精确模式的不同应用场景。文章进一步指导读者如何通过添加自定义词典优化分词效果,以及如何利用jieba分词器进行关键词抽取和词性标注,为后续的文本分析打下坚实基础。以十九大报告为例,我们将展示如何将分析结果以词云图的形式直观展现,使读者能够更加深入理解和掌握文本分析的实际操作,进而提升处理中文文本数据的能力。此博客适合NLP初学者及对文本分析感兴趣的专业人士。
2024-06-26 14:15:03
1374
原创 Python画词云图时字体报错,ValueError: Only supported for TrueType fonts
Python画词云图时字体报错,ValueError: Only supported for TrueType fonts
2024-06-26 13:02:18
694
3
原创 【自然语言处理系列】探索NLP:使用Spacy进行分词、分句、词性标注和命名实体识别,并以《傲慢与偏见》与全球恐怖活动两个实例文本进行分析
本文深入探讨了scaPy库在文本分析和数据可视化方面的应用。首先,我们通过简单的文本处理任务,如分词和分句,来展示scaPy的基本功能。接着,我们利用scaPy的命名实体识别和词性标注功能,分析了Jane Austen的经典小说《傲慢与偏见》,识别出文中的主要人物和地点。最后,我们将这些文本分析技术应用于全球恐怖活动的数据集中,揭示了不同恐怖组织在全球各地的活动分布。文章展示了如何用scaPy进行复杂的文本挖掘和数据分析,为研究和政策制定提供见解。
2024-06-25 22:20:47
1590
2
原创 【自然语言处理系列】手动安装和测试Spacy中en_core_web_sm模型的详细教程
本教程旨在为自然语言处理(NLP)初学者提供一个详细的指南,用于手动安装流行的NLP库Spacy及其英语模型en_core_web_sm。文章将逐步指导您如何安装Spacy库、查看其版本,确定并下载适合的en_core_web_sm模型版本,以及如何正确安装并测试这些组件确保它们正常工作。完成本教程后,您将能够使用Spacy进行基本的NLP任务,例如分词、命名实体识别和依赖关系解析。
2024-06-25 17:15:57
5554
5
原创 【自然语言处理系列】掌握NLP基础:去停用词、词性标注与命名实体识别实战教程
本系列教程专注于自然语言处理(NLP)中的基础元素,包括去停用词、词性标注以及命名实体识别。这些步骤是文本预处理和分析不可或缺的组成部分。我们将通过具体的实例和技术演示,讲解如何使用Python及其相关库(如NLTK)进行有效的文本数据处理。从去除无关词汇到识别关键实体,提供详细的操作指导和实际应用案例,帮助读者提升在文本挖掘和数据分析领域的技能。
2024-06-25 16:02:11
1392
原创 使用Python创建并保存Word文档,将python代码结果插到word中
本教程将引导读者通过简单的Python脚本创建和保存一个包含特定内容的Word文档。首先,我们将介绍如何安装必要的python-docx库,接着学习如何使用docx库的基本功能来创建一个新的Word文档对象。文章中,我们将具体演示如何在Python中执行代码,处理数据,并将这些数据以段落的形式插入到新创建的Word文档中。最后,我们将展示如何保存这个文档为.docx格式。
2024-06-25 15:42:02
2345
原创 【自然语言处理系列】安装nltk_data和punkt库(亲测有效)
在使用自然语言处理库nltk时,许多初学者会遇到“nltk.download('punkt')”无法正常下载的问题。本文将提供一个详细的解决方案,包括如何下载所需的数据文件、将其移动到正确的目录,并进行测试以确保成功调用punkt库。无论您是编程新手还是有经验的开发者,希望这篇文章帮助您克服这一常见障碍,使您能够顺利使用nltk库进行自然语言处理任务。
2024-06-24 22:52:41
19283
10
原创 【自然语言处理系列】探索正则表达式:从基础语法到高级应用
本系列博客将带你深入了解正则表达式的世界,从基本语法开始,直到复杂的应用场景。我们将一起探索如何在Python中使用正则表达式进行字符串的搜索、匹配、替换和分割,以及如何利用正则表达式进行数据验证和提取。无论你是正则表达式的新手,还是希望巩固和扩展你的知识,这个系列都将为你提供有价值的见解和实用的例子。
2024-06-24 21:10:55
1288
原创 【自然语言处理系列】Python 字符串操作技巧:清理、替换与合并
在编写Python程序时,字符串处理是一项常见的任务。了解如何有效地清理、修改和合并字符串对于数据预处理、文本分析和日常编程都至关重要。本文将引导您通过一系列实用的示例来掌握Python中字符串的核心操作,包括去除不需要的空格和特殊字符、替换文本中的特定单词以及将单词序列合并成通顺的语句。无论您是数据科学家、Web开发者还是编程新手,这些技巧都将帮助您提高编码效率并优化您的文本数据。本文将学习如何在Python中灵活运用strip()、replace()和split()等方法,以实现强大的字符串操作。
2024-06-24 19:23:03
502
原创 【深度学习系列】全面指南:安装TensorFlow的CPU和GPU版本
本博客旨在为初学者提供一份全面的指南,介绍如何根据个人电脑的配置选择并安装适合的TensorFlow版本。内容涵盖了如何查看电脑显卡型号以确定是安装CPU还是GPU版本的TensorFlow,创建Python虚拟环境,以及使用conda命令查找可用的TensorFlow版本。同时,文章还提供了安装过程中可能遇到的问题及其解决方法,确保读者能够顺利完成安装过程,并开始他们的机器学习或深度学习项目。
2024-06-22 22:55:33
32756
9
原创 【机器学习系列】Python实战:使用GridSearchCV优化AdaBoost分类器及其基分类器
本文旨在深入探索AdaBoost算法的标准实现,并解释如何通过网格搜索(GridSearchCV)对其及其基分类器(如决策树)的参数进行优化,以在分类任务中达到更高的准确率。我们将从AdaBoost的基本概念讲起,介绍其在Python中的实现方式,并通过一个实例详细展示如何划分训练集、选择基分类器、创建AdaBoost分类器、调参优化以及评估预测性能。本篇博客将帮助读者理解AdaBoost算法的调优步骤,并能够运用网格搜索技术寻找最优的模型参数,从而提高模型在实际应用中的预测精度。
2024-06-11 21:27:45
1506
1
原创 【机器学习系列】深入理解集成学习:从Bagging到Boosting
本文将探讨集成学习方法的核心概念,包括其基本原理和两种主流技术:装袋(Bagging)与提升(Boosting)。我们将深入了解随机森林——一种基于Bagging的集成方法,并讨论其背后的思想、树的生成过程以及抽样策略。同时,我们也将介绍Adaboost算法的基本思想和工作原理,并通过实例加以说明。通过这篇文章,读者可以获得对集成分类器构建方法的全面了解,并掌握如何在Python中实现随机森林。
2024-06-10 21:58:36
1470
原创 【数据可视化系列】使用Python和Seaborn绘制相关性热力图
在数据科学领域,了解不同特征之间的相关性是非常重要的。本教程将引导你如何使用Python编程语言和Seaborn库来绘制鸢尾花数据集(Iris dataset)的特征相关性热力图。我们将首先导入所需的库,包括pandas和scikit-learn,然后加载鸢尾花数据集并提取其特征和目标变量。接下来,我们将创建一个数据框来存储这些数据,并使用Seaborn库中的heatmap函数来生成一个可视化的相关性热力图。这个图将帮助我们快速识别数据集中哪些特征之间存在强烈的相关性,从而为进一步的数据分析提供洞见。
2024-06-08 22:06:41
1955
原创 【Python预处理系列】深入理解过采样技术及其Python实现
本文旨在为读者提供一个关于过采样技术的全面概述,包括其基本概念、实现方法以及与数据增强的关系。过采样是处理不平衡数据集的常用技术之一,通过增加少数类的样本来平衡类别分布。我们将重点介绍SMOTE(合成少数过采样技术)算法,并通过Python代码示例演示如何在不平衡数据集上应用SMOTE进行过采样。文章还将探讨过采样和欠采样是否属于数据增强的范畴,并解释在PCA降维过程中X_pca与y之间的内在联系。最后,我们将对比展示过采样前后的数据分布情况,以直观地理解过采样对数据集的影响。
2024-06-08 12:43:22
3775
原创 【数据分析系列】交叉列联表与卡方检验:数据解读与Python实践应用
在数据分析中,交叉列联表和卡方检验是分析分类数据的有力工具。本篇博客将详细解释交叉列联表的构成以及如何运用卡方检验对表中数据进行统计显著性分析。文章还将讨论卡方检验中的两个关键元素:卡方统计量和P值,并解释它们在假设检验过程中的重要性。通过具体实例,展示从数据收集到列联表构造,再到卡方检验的详细步骤。本篇博客旨在为读者提供一站式的指南,从理解交叉列联表和卡方检验的基本概念到能够独立进行数据分析和结果解释,帮助研究人员、数据分析师或任何对统计实践感兴趣的读者,有效利用这些工具来洞察和解析分类数据。
2024-06-07 15:55:52
5146
原创 【Python数据预处理系列】掌握数据清洗技巧:如何高效使用drop()函数去除不需要的列
在数据分析和预处理的过程中,经常会遇到需要从数据集中移除某些列的情况。本文将引导您了解如何使用drop函数高效地去除不需要的列,帮助您提升数据处理技能,确保您的数据集只包含对分析有价值的信息。我们将介绍不同编程语言中实现这一目标的具体方法,并提供实用的操作步骤和示例代码,使您能够轻松应对各种数据清洗任务。无论您是数据分析师、数据科学家还是业务分析师,本指南都将是您处理数据时的得力助手。
2024-06-06 00:45:04
733
原创 【Python数据预处理系列】Pandas 数据操作实战:掌握 .loc[] 方法进行高效数据选取
本文深入讲解了使用Pandas进行数据分析时,如何有效利用.loc[]方法进行数据选择和操作。首先介绍如何准备数据并进行基本设置。随后重点讨论了通过.loc[]选取特定列的整行数据,这一技能对于初步数据分析及清洗至关重要。文章还探讨了如何用.loc[]选取特定的行和列范围,以及如何结合布尔索引进行复杂条件筛选。最后,展示如何通过.loc[]同时应用多个筛选条件,实现精准的数据查询。全文以实际代码示例支撑,帮助读者更好地理解和运用这一强大工具,提升数据处理效率。
2024-06-05 22:19:08
785
【python操作neo4j构建企业间的业务往来知识图谱】
2024-06-28
【python操作neo4j构建企业间的业务往来知识图谱】
2024-06-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅