自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(74)
  • 资源 (2)
  • 收藏
  • 关注

原创 【基于阿里云搭建数据仓库(离线)】使用UDTF时出现报错“FlatEventUDTF cannot be resolved”

使用UDTF时出现报错“FlatEventUDTF cannot be resolved”

2025-06-08 13:34:57 446

原创 【基于阿里云搭建数据仓库(离线)】IDEA创建项目

【基于阿里云搭建数据仓库(离线)】IDEA创建项目

2025-06-03 09:55:53 151

原创 【基于阿里云搭建数据仓库(离线)】MaxCompute只支持到Java8导致UDTF加载失败

【基于阿里云搭建数据仓库(离线)】MaxCompute只支持到Java8导致UDTF加载失败【解决方案】确认MaxCompute内部JVM为1.8,建议卸载JDK11并从Oracle官网下载JDK8进行配置。 

2025-06-02 21:42:21 249 5

原创 【基于阿里云搭建数据仓库(离线)】IDEA导出Jar包(包括第三方依赖)

【基于阿里云搭建数据仓库(离线)】IDEA导出Jar包(包括第三方依赖)

2025-06-02 21:31:13 408

原创 【基于阿里云搭建数据仓库(离线)】Data Studio创建资源与函数

【基于阿里云搭建数据仓库(离线)】Data Studio创建资源与函数

2025-06-02 21:08:49 897 1

原创 【基于阿里云搭建数据仓库(离线)】DataWorks中删除节点

【基于阿里云搭建数据仓库(离线)】DataWorks中删除节点

2025-06-02 18:36:10 130

原创 【非线性规划求解系列】MATLAB中fmincon函数:高效求解约束非线性多变量函数最小值

本文详细介绍了MATLAB中的fmincon函数,该函数专门用于寻找带有约束条件的非线性多变量函数的最小值。文章从fmincon的基本语法入手,逐步深入到其应用实例,包括线性不等式约束、线性等式与不等式混合约束、具有边界约束的优化问题、非线性约束优化以及如何获取目标函数值和使用额外输出来验证解的正确性。此外,还探讨了如何获取fmincon的所有输出以及exitflag参数如何帮助理解算法停止的原因。

2024-10-10 10:51:55 10029 3

原创 【线性规划求解系列】MATLAB中使用linprog解决线性规划问题

本文详细介绍了如何在MATLAB中使用linprog函数来解决各种类型的线性规划问题。首先概述了linprog的基本语法,随后通过五个具体实例演示了如何处理仅含有线性不等式约束、同时含有线性等式和不等式约束、以及包含所有类型约束的线性规划问题。此外,还展示了如何获取优化过程中的目标函数值及退出条件,帮助读者更好地理解和应用linprog函数进行优化计算。无论是初学者还是有一定经验的用户,都能从中受益,掌握使用MATLAB进行线性规划的基础知识和技巧。

2024-09-19 11:00:55 3059

原创 Latex入门指南:从下载到安装的全面教程

本篇博客旨在为初学者提供一个全面的Latex入门指南,涵盖了从下载、安装到配置Texlive和TexStudio的详细步骤。通过本指南,您将了解到如何正确安装Latex环境并成功运行第一个Latex文档,为撰写高质量的科技论文或书籍打下坚实基础。

2024-08-05 13:52:24 5849 3

原创 【知识图谱系列】(实例)python操作neo4j构建企业间的业务往来的知识图谱

本章节通过聚焦于"金额"这一核心属性,构建了一幅知识图谱,旨在揭示"销售方"与"购买方"间的商业互动网。在这张图谱中,绿色节点象征着购买方,而红色节点则代表了销售方。这两类节点间的紧密连线,不仅映射了双方在市场活动中的合作桥梁,还特别以不同颜色编码的线条区分了交易的规模等级:细分为1000万级别、2000万级别、5000万级别乃至8000万级别的交易纽带,以此精准描绘出商业交易的多样性和规模层次。

2024-06-28 18:38:13 896 3

原创 【知识图谱系列】Neo4j使用Py2neo与python进行链接

目录一、安装py2neo二、打开Neo4j三、使用Python操作Neo4j一、安装py2neopip install --upgrade py2neo -i https://pypi.tuna.tsinghua.edu.cn/simple可以先阅读下文档:https://py2neo.org/v4/index.html这个文档里有好多关于这个工具包的API介绍,也就是如何使用这个工具包。二、打开Neo4j在cmd里输入neo4j.bat console,然

2024-06-28 17:04:48 1402

原创 【知识图谱系列】Neo4j数据库操作全攻略:增删改查与快速清空技巧

本文将全面介绍Neo4j图数据库的基本操作,包括如何增加节点和关系、如何删除节点和关系、如何修改节点和关系的属性以及标签,以及如何进行查找操作。此外,还将分享一个实用的小技巧——如何快速清空Neo4j数据库中的所有数据。

2024-06-27 16:17:04 7154

原创 【知识图谱系列】一步步指导:安装与配置JDK和Neo4j的完美搭配

本文将提供详细的步骤,介绍如何下载、安装和配置Java开发工具包(JDK)以及流行的图形数据库Neo4j。将从选择合适的JDK版本开始,然后是下载和配置环境变量,接着以同样的方式处理Neo4j。最后,会通过一些检查步骤来确保一切安装正确。

2024-06-27 13:37:48 1893 3

原创 【自然语言处理系列】掌握jieba分词器:从基础到实战,深入文本分析与词云图展示

本文旨在全面介绍jieba分词器的功能与应用,从分词器的基本情况入手,逐步解析全模式与精确模式的不同应用场景。文章进一步指导读者如何通过添加自定义词典优化分词效果,以及如何利用jieba分词器进行关键词抽取和词性标注,为后续的文本分析打下坚实基础。以十九大报告为例,我们将展示如何将分析结果以词云图的形式直观展现,使读者能够更加深入理解和掌握文本分析的实际操作,进而提升处理中文文本数据的能力。此博客适合NLP初学者及对文本分析感兴趣的专业人士。

2024-06-26 14:15:03 1191

原创 Python画词云图时字体报错,ValueError: Only supported for TrueType fonts

Python画词云图时字体报错,ValueError: Only supported for TrueType fonts

2024-06-26 13:02:18 615 3

原创 【自然语言处理系列】探索NLP:使用Spacy进行分词、分句、词性标注和命名实体识别,并以《傲慢与偏见》与全球恐怖活动两个实例文本进行分析

本文深入探讨了scaPy库在文本分析和数据可视化方面的应用。首先,我们通过简单的文本处理任务,如分词和分句,来展示scaPy的基本功能。接着,我们利用scaPy的命名实体识别和词性标注功能,分析了Jane Austen的经典小说《傲慢与偏见》,识别出文中的主要人物和地点。最后,我们将这些文本分析技术应用于全球恐怖活动的数据集中,揭示了不同恐怖组织在全球各地的活动分布。文章展示了如何用scaPy进行复杂的文本挖掘和数据分析,为研究和政策制定提供见解。

2024-06-25 22:20:47 1075 1

原创 【自然语言处理系列】手动安装和测试Spacy中en_core_web_sm模型的详细教程

本教程旨在为自然语言处理(NLP)初学者提供一个详细的指南,用于手动安装流行的NLP库Spacy及其英语模型en_core_web_sm。文章将逐步指导您如何安装Spacy库、查看其版本,确定并下载适合的en_core_web_sm模型版本,以及如何正确安装并测试这些组件确保它们正常工作。完成本教程后,您将能够使用Spacy进行基本的NLP任务,例如分词、命名实体识别和依赖关系解析。

2024-06-25 17:15:57 4920 5

原创 【自然语言处理系列】掌握NLP基础:去停用词、词性标注与命名实体识别实战教程

本系列教程专注于自然语言处理(NLP)中的基础元素,包括去停用词、词性标注以及命名实体识别。这些步骤是文本预处理和分析不可或缺的组成部分。我们将通过具体的实例和技术演示,讲解如何使用Python及其相关库(如NLTK)进行有效的文本数据处理。从去除无关词汇到识别关键实体,提供详细的操作指导和实际应用案例,帮助读者提升在文本挖掘和数据分析领域的技能。

2024-06-25 16:02:11 1185

原创 使用Python创建并保存Word文档,将python代码结果插到word中

本教程将引导读者通过简单的Python脚本创建和保存一个包含特定内容的Word文档。首先,我们将介绍如何安装必要的python-docx库,接着学习如何使用docx库的基本功能来创建一个新的Word文档对象。文章中,我们将具体演示如何在Python中执行代码,处理数据,并将这些数据以段落的形式插入到新创建的Word文档中。最后,我们将展示如何保存这个文档为.docx格式。

2024-06-25 15:42:02 1537

原创 【自然语言处理系列】安装nltk_data和punkt库(亲测有效)

在使用自然语言处理库nltk时,许多初学者会遇到“nltk.download('punkt')”无法正常下载的问题。本文将提供一个详细的解决方案,包括如何下载所需的数据文件、将其移动到正确的目录,并进行测试以确保成功调用punkt库。无论您是编程新手还是有经验的开发者,希望这篇文章帮助您克服这一常见障碍,使您能够顺利使用nltk库进行自然语言处理任务。

2024-06-24 22:52:41 15972 10

原创 【自然语言处理系列】探索正则表达式:从基础语法到高级应用

本系列博客将带你深入了解正则表达式的世界,从基本语法开始,直到复杂的应用场景。我们将一起探索如何在Python中使用正则表达式进行字符串的搜索、匹配、替换和分割,以及如何利用正则表达式进行数据验证和提取。无论你是正则表达式的新手,还是希望巩固和扩展你的知识,这个系列都将为你提供有价值的见解和实用的例子。

2024-06-24 21:10:55 1028

原创 【自然语言处理系列】Python 字符串操作技巧:清理、替换与合并

在编写Python程序时,字符串处理是一项常见的任务。了解如何有效地清理、修改和合并字符串对于数据预处理、文本分析和日常编程都至关重要。本文将引导您通过一系列实用的示例来掌握Python中字符串的核心操作,包括去除不需要的空格和特殊字符、替换文本中的特定单词以及将单词序列合并成通顺的语句。无论您是数据科学家、Web开发者还是编程新手,这些技巧都将帮助您提高编码效率并优化您的文本数据。本文将学习如何在Python中灵活运用strip()、replace()和split()等方法,以实现强大的字符串操作。

2024-06-24 19:23:03 304

原创 【深度学习系列】全面指南:安装TensorFlow的CPU和GPU版本

本博客旨在为初学者提供一份全面的指南,介绍如何根据个人电脑的配置选择并安装适合的TensorFlow版本。内容涵盖了如何查看电脑显卡型号以确定是安装CPU还是GPU版本的TensorFlow,创建Python虚拟环境,以及使用conda命令查找可用的TensorFlow版本。同时,文章还提供了安装过程中可能遇到的问题及其解决方法,确保读者能够顺利完成安装过程,并开始他们的机器学习或深度学习项目。

2024-06-22 22:55:33 30276 9

原创 【机器学习系列】Python实战:使用GridSearchCV优化AdaBoost分类器及其基分类器

本文旨在深入探索AdaBoost算法的标准实现,并解释如何通过网格搜索(GridSearchCV)对其及其基分类器(如决策树)的参数进行优化,以在分类任务中达到更高的准确率。我们将从AdaBoost的基本概念讲起,介绍其在Python中的实现方式,并通过一个实例详细展示如何划分训练集、选择基分类器、创建AdaBoost分类器、调参优化以及评估预测性能。本篇博客将帮助读者理解AdaBoost算法的调优步骤,并能够运用网格搜索技术寻找最优的模型参数,从而提高模型在实际应用中的预测精度。

2024-06-11 21:27:45 1250 1

原创 【机器学习系列】深入理解集成学习:从Bagging到Boosting

本文将探讨集成学习方法的核心概念,包括其基本原理和两种主流技术:装袋(Bagging)与提升(Boosting)。我们将深入了解随机森林——一种基于Bagging的集成方法,并讨论其背后的思想、树的生成过程以及抽样策略。同时,我们也将介绍Adaboost算法的基本思想和工作原理,并通过实例加以说明。通过这篇文章,读者可以获得对集成分类器构建方法的全面了解,并掌握如何在Python中实现随机森林。

2024-06-10 21:58:36 1228

原创 【数据可视化系列】使用Python和Seaborn绘制相关性热力图

在数据科学领域,了解不同特征之间的相关性是非常重要的。本教程将引导你如何使用Python编程语言和Seaborn库来绘制鸢尾花数据集(Iris dataset)的特征相关性热力图。我们将首先导入所需的库,包括pandas和scikit-learn,然后加载鸢尾花数据集并提取其特征和目标变量。接下来,我们将创建一个数据框来存储这些数据,并使用Seaborn库中的heatmap函数来生成一个可视化的相关性热力图。这个图将帮助我们快速识别数据集中哪些特征之间存在强烈的相关性,从而为进一步的数据分析提供洞见。

2024-06-08 22:06:41 1616

原创 【Python预处理系列】深入理解过采样技术及其Python实现

本文旨在为读者提供一个关于过采样技术的全面概述,包括其基本概念、实现方法以及与数据增强的关系。过采样是处理不平衡数据集的常用技术之一,通过增加少数类的样本来平衡类别分布。我们将重点介绍SMOTE(合成少数过采样技术)算法,并通过Python代码示例演示如何在不平衡数据集上应用SMOTE进行过采样。文章还将探讨过采样和欠采样是否属于数据增强的范畴,并解释在PCA降维过程中X_pca与y之间的内在联系。最后,我们将对比展示过采样前后的数据分布情况,以直观地理解过采样对数据集的影响。

2024-06-08 12:43:22 3343

原创 【数据分析系列】交叉列联表与卡方检验:数据解读与Python实践应用

在数据分析中,交叉列联表和卡方检验是分析分类数据的有力工具。本篇博客将详细解释交叉列联表的构成以及如何运用卡方检验对表中数据进行统计显著性分析。文章还将讨论卡方检验中的两个关键元素:卡方统计量和P值,并解释它们在假设检验过程中的重要性。通过具体实例,展示从数据收集到列联表构造,再到卡方检验的详细步骤。本篇博客旨在为读者提供一站式的指南,从理解交叉列联表和卡方检验的基本概念到能够独立进行数据分析和结果解释,帮助研究人员、数据分析师或任何对统计实践感兴趣的读者,有效利用这些工具来洞察和解析分类数据。

2024-06-07 15:55:52 4169

原创 【Python数据预处理系列】掌握数据清洗技巧:如何高效使用drop()函数去除不需要的列

在数据分析和预处理的过程中,经常会遇到需要从数据集中移除某些列的情况。本文将引导您了解如何使用drop函数高效地去除不需要的列,帮助您提升数据处理技能,确保您的数据集只包含对分析有价值的信息。我们将介绍不同编程语言中实现这一目标的具体方法,并提供实用的操作步骤和示例代码,使您能够轻松应对各种数据清洗任务。无论您是数据分析师、数据科学家还是业务分析师,本指南都将是您处理数据时的得力助手。

2024-06-06 00:45:04 615

原创 【Python数据预处理系列】Pandas 数据操作实战:掌握 .loc[] 方法进行高效数据选取

本文深入讲解了使用Pandas进行数据分析时,如何有效利用.loc[]方法进行数据选择和操作。首先介绍如何准备数据并进行基本设置。随后重点讨论了通过.loc[]选取特定列的整行数据,这一技能对于初步数据分析及清洗至关重要。文章还探讨了如何用.loc[]选取特定的行和列范围,以及如何结合布尔索引进行复杂条件筛选。最后,展示如何通过.loc[]同时应用多个筛选条件,实现精准的数据查询。全文以实际代码示例支撑,帮助读者更好地理解和运用这一强大工具,提升数据处理效率。

2024-06-05 22:19:08 682

原创 【Python数据预处理系列】精通Pandas:数据清洗中的字符串分割技巧(例子:如何将籍贯列中的横线替换为省份和市区)

本文将深入探讨Pandas库在数据清洗中的应用,特别是字符串分割技巧。本文例子讲解如何将包含横线的籍贯列拆分为省份和市区两个部分。首先,我们创建了一个空的DataFrame,然后使用data["籍贯"].str.split('-')方法对"籍贯"列进行字符串分割。接着,我们分别提取了分割后的第一部分(省份)和第二部分(市区),并将它们添加到新的DataFrame中。这些操作可以帮助我们在数据分析过程中更好地处理和利用原始数据。

2024-06-05 19:55:46 487

原创 从Series到DataFrame:Python数据操作的转换技巧

在数据分析和处理的过程中,我们经常需要在Pandas库中对Series和DataFrame进行操作。本文将介绍如何将Series转换为DataFrame,以及如何提取DataFrame中的某一列。首先,我们将通过使用to_frame()函数将Series转换为DataFrame。然后,我们将展示如何使用索引操作符[]来提取DataFrame中的某一列。最后,我们将打印出结果以验证操作的正确性。这些基本的数据操作技巧对于任何使用Python进行数据分析的人来说都是非常有用的。

2024-06-05 19:07:03 1785 2

原创 【机器学习系列】“购物篮分析入门:使用Apyori库进行关联规则挖掘”

本篇文章旨在引导读者使用Python的Apyori库来发掘顾客购买行为中的隐藏关联。从介绍关联分析的基本概念开始,如支持度、置信度和提升度,文章将详细指导读者如何通过单据号处理和分析购物篮数据。读者将学习如何汇总和过滤商品数据,以及如何使用Apyori库提取关联规则和统计指标。通过这篇文章,读者能够掌握利用关联规则分析优化产品布局和营销策略的技能,以促进销售和提高顾客满意度。

2024-05-30 09:31:52 1643 5

原创 【机器学习系列】掌握随机森林:从基础原理到参数优化的全面指南

本文旨在为读者提供一份关于随机森林算法的详尽指南,从模型的基本原理出发,探讨其优势,并指导如何在实际数据集上应用该模型。首先,我们将介绍随机森林的工作机制,包括它如何通过集成多个决策树来提高预测准确性和防止过拟合。接着,文章将展示如何导入数据集,并进行必要的数据预处理,例如独热编码转换,以准备数据用于训练模型。此外,我们还将讨论如何选择特征和标签,以及如何导入并实例化随机森林模块。最后,本文将重点介绍如何使用网格搜索法来查找最优参数,确保模型达到最佳性能。

2024-05-29 09:48:49 2470 7

原创 【机器学习系列】使用高斯贝叶斯模型进行数据分类的完整流程

在这篇博客中,我们将详细介绍如何使用高斯贝叶斯模型进行数据分类。首先,我们会导入数据并选择特征。然后,我们会使用十折交叉验证来评估模型的性能。接下来,我们会将数据集划分为训练集和测试集。在训练集上,我们会训练高斯贝叶斯模型,然后在测试集上进行预测。最后,我们会查看训练集和测试集上的分数,查看混合矩阵,并输出评估指标。这篇博客的目标是帮助读者理解并掌握使用高斯贝叶斯模型进行数据分类的整个流程。

2024-05-22 15:19:39 670

原创 【机器学习系列】从导入数据到决策树可视化:一步步教你构建优化的机器学习模型

在这篇博客中,我们将详细探讨如何从一个数据集开始,通过一系列的数据处理和模型优化步骤,最终构建出一个高效的决策树模型。首先,我们会讨论如何导入数据,并进行独热编码以处理分类变量。接着,我们将使用网格搜索进行参数调优,以选择最优的模型参数。然后,我们会利用这些训练好的参数建立决策树模型,并进行交叉验证以确保模型的稳定性和准确性。最后,我们将展示如何将决策树进行可视化,以便更直观地理解和解释模型的预测结果。无论你是机器学习的初学者,还是希望深化对决策树模型理解的研究者,这篇博客都将为你提供有价值的参考和指导。

2024-05-22 11:51:16 474

原创 【机器学习系列】使用KNN模型进行数据分析和预测的完整流程

在这篇博客中,我们将详细介绍如何使用KNN(K最近邻)模型进行数据分析和预测。我们将从导入数据开始,然后选择特征变量,划分训练集和测试集。接着,我们将训练KNN模型,进行预测,并计算混淆矩阵、准确率、精确度、召回率和F1值。此外,我们还将计算十折交叉验证,并选取最优参数K值。通过这个过程,你将能够全面了解KNN模型的应用,以及如何通过调整参数来优化模型的性能。

2024-05-22 11:35:45 3364

原创 【python数据预处理系列】使用 Pandas 库的 value_counts() 函数进行唯一元素计数(计算每个元素的频数)

在数据分析过程中,了解数据列中各个唯一值的出现频率是至关重要的。Pandas 库提供了一个功能强大的函数 —— value_counts() —— 专门用于统计 DataFrame 或 Series 中每个唯一值的数量。本文将通过创建一个示例 DataFrame 来演示如何使用 .value_counts() 函数对特定列的唯一值进行计数,并解释其输出结果,以帮助读者更好地理解和应用这一函数于实际的数据处理任务中。

2024-05-19 09:57:16 426

原创 【python数据预处理系列】掌握datetime函数计算时间差:Python中的日期处理与分析

在数据分析和数据科学中,我们经常需要处理时间序列数据。这涉及到一个关键的步骤:计算时间差。本文将通过Python代码示例,详细解析如何从两个日期字符串开始,逐步计算出它们之间的时间差,包括以天和秒表示的时间差,以及以年为单位的时间差。我们将使用Python的datetime和pandas库来完成这个任务。无论你是初学者还是有经验的开发者,都可以从这个教程中获取有用的知识和技巧。

2024-05-15 11:39:15 815

原创 【python数据预处理系列】使用Pandas的factorize()函数进行类别编码(整数编码)

在数据处理中,我们经常需要将数据转换为数值数据或类别数据,以便于机器学习模型的处理。本文将介绍如何使用Pandas的factorize()函数对类别数据进行整数编码。通过一个简单的示例,我们将演示如何使用factorize()函数将类别数据转换为整数编码,并展示转换前后的数据对比。

2024-05-15 11:02:20 1061

【python操作neo4j构建企业间的业务往来知识图谱】

本章节通过聚焦于"金额"这一核心属性,构建了一幅知识图谱,旨在揭示"销售方"与"购买方"间的商业互动网。在这张图谱中,绿色节点象征着购买方,而红色节点则代表了销售方。这两类节点间的紧密连线,不仅映射了双方在市场活动中的合作桥梁,还特别以不同颜色编码的线条区分了交易的规模等级:细分为1000万级别、2000万级别、5000万级别乃至8000万级别的交易纽带,以此精准描绘出商业交易的多样性和规模层次。

2024-06-28

【python操作neo4j构建企业间的业务往来知识图谱】

本章节通过聚焦于"金额"这一核心属性,构建了一幅知识图谱,旨在揭示"销售方"与"购买方"间的商业互动网。在这张图谱中,绿色节点象征着购买方,而红色节点则代表了销售方。这两类节点间的紧密连线,不仅映射了双方在市场活动中的合作桥梁,还特别以不同颜色编码的线条区分了交易的规模等级:细分为1000万级别、2000万级别、5000万级别乃至8000万级别的交易纽带,以此精准描绘出商业交易的多样性和规模层次。

2024-06-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除