自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(59)
  • 收藏
  • 关注

原创 【知识图谱系列】(实例)python操作neo4j构建企业间的业务往来的知识图谱

本章节通过聚焦于"金额"这一核心属性,构建了一幅知识图谱,旨在揭示"销售方"与"购买方"间的商业互动网。在这张图谱中,绿色节点象征着购买方,而红色节点则代表了销售方。这两类节点间的紧密连线,不仅映射了双方在市场活动中的合作桥梁,还特别以不同颜色编码的线条区分了交易的规模等级:细分为1000万级别、2000万级别、5000万级别乃至8000万级别的交易纽带,以此精准描绘出商业交易的多样性和规模层次。

2024-06-28 18:38:13 473

原创 【知识图谱系列】Neo4j使用Py2neo与python进行链接

目录一、安装py2neo二、打开Neo4j三、使用Python操作Neo4j一、安装py2neopip install --upgrade py2neo -i https://pypi.tuna.tsinghua.edu.cn/simple可以先阅读下文档:https://py2neo.org/v4/index.html这个文档里有好多关于这个工具包的API介绍,也就是如何使用这个工具包。二、打开Neo4j在cmd里输入neo4j.bat console,然

2024-06-28 17:04:48 405

原创 【知识图谱系列】Neo4j数据库操作全攻略:增删改查与快速清空技巧

本文将全面介绍Neo4j图数据库的基本操作,包括如何增加节点和关系、如何删除节点和关系、如何修改节点和关系的属性以及标签,以及如何进行查找操作。此外,还将分享一个实用的小技巧——如何快速清空Neo4j数据库中的所有数据。

2024-06-27 16:17:04 1369

原创 【知识图谱系列】一步步指导:安装与配置JDK和Neo4j的完美搭配

本文将提供详细的步骤,介绍如何下载、安装和配置Java开发工具包(JDK)以及流行的图形数据库Neo4j。将从选择合适的JDK版本开始,然后是下载和配置环境变量,接着以同样的方式处理Neo4j。最后,会通过一些检查步骤来确保一切安装正确。

2024-06-27 13:37:48 917 2

原创 Python画词云图时字体报错,ValueError: Only supported for TrueType fonts

Python画词云图时字体报错,ValueError: Only supported for TrueType fonts

2024-06-26 13:02:18 184 2

原创 【自然语言处理系列】手动安装和测试Spacy中en_core_web_sm模型的详细教程

本教程旨在为自然语言处理(NLP)初学者提供一个详细的指南,用于手动安装流行的NLP库Spacy及其英语模型en_core_web_sm。文章将逐步指导您如何安装Spacy库、查看其版本,确定并下载适合的en_core_web_sm模型版本,以及如何正确安装并测试这些组件确保它们正常工作。完成本教程后,您将能够使用Spacy进行基本的NLP任务,例如分词、命名实体识别和依赖关系解析。

2024-06-25 17:15:57 1330

原创 使用Python创建并保存Word文档,将python代码结果插到word中

本教程将引导读者通过简单的Python脚本创建和保存一个包含特定内容的Word文档。首先,我们将介绍如何安装必要的python-docx库,接着学习如何使用docx库的基本功能来创建一个新的Word文档对象。文章中,我们将具体演示如何在Python中执行代码,处理数据,并将这些数据以段落的形式插入到新创建的Word文档中。最后,我们将展示如何保存这个文档为.docx格式。

2024-06-25 15:42:02 278

原创 【自然语言处理系列】安装nltk_data和punkt库(亲测有效)

在使用自然语言处理库nltk时,许多初学者会遇到“nltk.download('punkt')”无法正常下载的问题。本文将提供一个详细的解决方案,包括如何下载所需的数据文件、将其移动到正确的目录,并进行测试以确保成功调用punkt库。无论您是编程新手还是有经验的开发者,希望这篇文章帮助您克服这一常见障碍,使您能够顺利使用nltk库进行自然语言处理任务。

2024-06-24 22:52:41 1195

原创 【深度学习系列】全面指南:安装TensorFlow的CPU和GPU版本

本博客旨在为初学者提供一份全面的指南,介绍如何根据个人电脑的配置选择并安装适合的TensorFlow版本。内容涵盖了如何查看电脑显卡型号以确定是安装CPU还是GPU版本的TensorFlow,创建Python虚拟环境,以及使用conda命令查找可用的TensorFlow版本。同时,文章还提供了安装过程中可能遇到的问题及其解决方法,确保读者能够顺利完成安装过程,并开始他们的机器学习或深度学习项目。

2024-06-22 22:55:33 2545 2

原创 【机器学习系列】Python实战:使用GridSearchCV优化AdaBoost分类器及其基分类器

本文旨在深入探索AdaBoost算法的标准实现,并解释如何通过网格搜索(GridSearchCV)对其及其基分类器(如决策树)的参数进行优化,以在分类任务中达到更高的准确率。我们将从AdaBoost的基本概念讲起,介绍其在Python中的实现方式,并通过一个实例详细展示如何划分训练集、选择基分类器、创建AdaBoost分类器、调参优化以及评估预测性能。本篇博客将帮助读者理解AdaBoost算法的调优步骤,并能够运用网格搜索技术寻找最优的模型参数,从而提高模型在实际应用中的预测精度。

2024-06-11 21:27:45 813

原创 【机器学习系列】深入理解集成学习:从Bagging到Boosting

本文将探讨集成学习方法的核心概念,包括其基本原理和两种主流技术:装袋(Bagging)与提升(Boosting)。我们将深入了解随机森林——一种基于Bagging的集成方法,并讨论其背后的思想、树的生成过程以及抽样策略。同时,我们也将介绍Adaboost算法的基本思想和工作原理,并通过实例加以说明。通过这篇文章,读者可以获得对集成分类器构建方法的全面了解,并掌握如何在Python中实现随机森林。

2024-06-10 21:58:36 852

原创 【数据可视化系列】使用Python和Seaborn绘制相关性热力图

在数据科学领域,了解不同特征之间的相关性是非常重要的。本教程将引导你如何使用Python编程语言和Seaborn库来绘制鸢尾花数据集(Iris dataset)的特征相关性热力图。我们将首先导入所需的库,包括pandas和scikit-learn,然后加载鸢尾花数据集并提取其特征和目标变量。接下来,我们将创建一个数据框来存储这些数据,并使用Seaborn库中的heatmap函数来生成一个可视化的相关性热力图。这个图将帮助我们快速识别数据集中哪些特征之间存在强烈的相关性,从而为进一步的数据分析提供洞见。

2024-06-08 22:06:41 968

原创 【Python预处理系列】深入理解过采样技术及其Python实现

本文旨在为读者提供一个关于过采样技术的全面概述,包括其基本概念、实现方法以及与数据增强的关系。过采样是处理不平衡数据集的常用技术之一,通过增加少数类的样本来平衡类别分布。我们将重点介绍SMOTE(合成少数过采样技术)算法,并通过Python代码示例演示如何在不平衡数据集上应用SMOTE进行过采样。文章还将探讨过采样和欠采样是否属于数据增强的范畴,并解释在PCA降维过程中X_pca与y之间的内在联系。最后,我们将对比展示过采样前后的数据分布情况,以直观地理解过采样对数据集的影响。

2024-06-08 12:43:22 1524

原创 【数据分析系列】交叉列联表与卡方检验:数据解读与Python实践应用

在数据分析中,交叉列联表和卡方检验是分析分类数据的有力工具。本篇博客将详细解释交叉列联表的构成以及如何运用卡方检验对表中数据进行统计显著性分析。文章还将讨论卡方检验中的两个关键元素:卡方统计量和P值,并解释它们在假设检验过程中的重要性。通过具体实例,展示从数据收集到列联表构造,再到卡方检验的详细步骤。本篇博客旨在为读者提供一站式的指南,从理解交叉列联表和卡方检验的基本概念到能够独立进行数据分析和结果解释,帮助研究人员、数据分析师或任何对统计实践感兴趣的读者,有效利用这些工具来洞察和解析分类数据。

2024-06-07 15:55:52 1246

原创 【Python数据预处理系列】掌握数据清洗技巧:如何高效使用drop()函数去除不需要的列

在数据分析和预处理的过程中,经常会遇到需要从数据集中移除某些列的情况。本文将引导您了解如何使用drop函数高效地去除不需要的列,帮助您提升数据处理技能,确保您的数据集只包含对分析有价值的信息。我们将介绍不同编程语言中实现这一目标的具体方法,并提供实用的操作步骤和示例代码,使您能够轻松应对各种数据清洗任务。无论您是数据分析师、数据科学家还是业务分析师,本指南都将是您处理数据时的得力助手。

2024-06-06 00:45:04 383

原创 【Python数据预处理系列】Pandas 数据操作实战:掌握 .loc[] 方法进行高效数据选取

本文深入讲解了使用Pandas进行数据分析时,如何有效利用.loc[]方法进行数据选择和操作。首先介绍如何准备数据并进行基本设置。随后重点讨论了通过.loc[]选取特定列的整行数据,这一技能对于初步数据分析及清洗至关重要。文章还探讨了如何用.loc[]选取特定的行和列范围,以及如何结合布尔索引进行复杂条件筛选。最后,展示如何通过.loc[]同时应用多个筛选条件,实现精准的数据查询。全文以实际代码示例支撑,帮助读者更好地理解和运用这一强大工具,提升数据处理效率。

2024-06-05 22:19:08 410

原创 【Python数据预处理系列】精通Pandas:数据清洗中的字符串分割技巧(例子:如何将籍贯列中的横线替换为省份和市区)

本文将深入探讨Pandas库在数据清洗中的应用,特别是字符串分割技巧。本文例子讲解如何将包含横线的籍贯列拆分为省份和市区两个部分。首先,我们创建了一个空的DataFrame,然后使用data["籍贯"].str.split('-')方法对"籍贯"列进行字符串分割。接着,我们分别提取了分割后的第一部分(省份)和第二部分(市区),并将它们添加到新的DataFrame中。这些操作可以帮助我们在数据分析过程中更好地处理和利用原始数据。

2024-06-05 19:55:46 344

原创 从Series到DataFrame:Python数据操作的转换技巧

在数据分析和处理的过程中,我们经常需要在Pandas库中对Series和DataFrame进行操作。本文将介绍如何将Series转换为DataFrame,以及如何提取DataFrame中的某一列。首先,我们将通过使用to_frame()函数将Series转换为DataFrame。然后,我们将展示如何使用索引操作符[]来提取DataFrame中的某一列。最后,我们将打印出结果以验证操作的正确性。这些基本的数据操作技巧对于任何使用Python进行数据分析的人来说都是非常有用的。

2024-06-05 19:07:03 653 2

原创 【机器学习系列】“购物篮分析入门:使用Apyori库进行关联规则挖掘”

本篇文章旨在引导读者使用Python的Apyori库来发掘顾客购买行为中的隐藏关联。从介绍关联分析的基本概念开始,如支持度、置信度和提升度,文章将详细指导读者如何通过单据号处理和分析购物篮数据。读者将学习如何汇总和过滤商品数据,以及如何使用Apyori库提取关联规则和统计指标。通过这篇文章,读者能够掌握利用关联规则分析优化产品布局和营销策略的技能,以促进销售和提高顾客满意度。

2024-05-30 09:31:52 1056 2

原创 【机器学习系列】掌握随机森林:从基础原理到参数优化的全面指南

本文旨在为读者提供一份关于随机森林算法的详尽指南,从模型的基本原理出发,探讨其优势,并指导如何在实际数据集上应用该模型。首先,我们将介绍随机森林的工作机制,包括它如何通过集成多个决策树来提高预测准确性和防止过拟合。接着,文章将展示如何导入数据集,并进行必要的数据预处理,例如独热编码转换,以准备数据用于训练模型。此外,我们还将讨论如何选择特征和标签,以及如何导入并实例化随机森林模块。最后,本文将重点介绍如何使用网格搜索法来查找最优参数,确保模型达到最佳性能。

2024-05-29 09:48:49 1126 7

原创 【机器学习系列】使用高斯贝叶斯模型进行数据分类的完整流程

在这篇博客中,我们将详细介绍如何使用高斯贝叶斯模型进行数据分类。首先,我们会导入数据并选择特征。然后,我们会使用十折交叉验证来评估模型的性能。接下来,我们会将数据集划分为训练集和测试集。在训练集上,我们会训练高斯贝叶斯模型,然后在测试集上进行预测。最后,我们会查看训练集和测试集上的分数,查看混合矩阵,并输出评估指标。这篇博客的目标是帮助读者理解并掌握使用高斯贝叶斯模型进行数据分类的整个流程。

2024-05-22 15:19:39 539

原创 【机器学习系列】从导入数据到决策树可视化:一步步教你构建优化的机器学习模型

在这篇博客中,我们将详细探讨如何从一个数据集开始,通过一系列的数据处理和模型优化步骤,最终构建出一个高效的决策树模型。首先,我们会讨论如何导入数据,并进行独热编码以处理分类变量。接着,我们将使用网格搜索进行参数调优,以选择最优的模型参数。然后,我们会利用这些训练好的参数建立决策树模型,并进行交叉验证以确保模型的稳定性和准确性。最后,我们将展示如何将决策树进行可视化,以便更直观地理解和解释模型的预测结果。无论你是机器学习的初学者,还是希望深化对决策树模型理解的研究者,这篇博客都将为你提供有价值的参考和指导。

2024-05-22 11:51:16 238

原创 【机器学习系列】使用KNN模型进行数据分析和预测的完整流程

在这篇博客中,我们将详细介绍如何使用KNN(K最近邻)模型进行数据分析和预测。我们将从导入数据开始,然后选择特征变量,划分训练集和测试集。接着,我们将训练KNN模型,进行预测,并计算混淆矩阵、准确率、精确度、召回率和F1值。此外,我们还将计算十折交叉验证,并选取最优参数K值。通过这个过程,你将能够全面了解KNN模型的应用,以及如何通过调整参数来优化模型的性能。

2024-05-22 11:35:45 1482

原创 【python数据预处理系列】使用 Pandas 库的 value_counts() 函数进行唯一元素计数(计算每个元素的频数)

在数据分析过程中,了解数据列中各个唯一值的出现频率是至关重要的。Pandas 库提供了一个功能强大的函数 —— value_counts() —— 专门用于统计 DataFrame 或 Series 中每个唯一值的数量。本文将通过创建一个示例 DataFrame 来演示如何使用 .value_counts() 函数对特定列的唯一值进行计数,并解释其输出结果,以帮助读者更好地理解和应用这一函数于实际的数据处理任务中。

2024-05-19 09:57:16 289

原创 【python数据预处理系列】掌握datetime函数计算时间差:Python中的日期处理与分析

在数据分析和数据科学中,我们经常需要处理时间序列数据。这涉及到一个关键的步骤:计算时间差。本文将通过Python代码示例,详细解析如何从两个日期字符串开始,逐步计算出它们之间的时间差,包括以天和秒表示的时间差,以及以年为单位的时间差。我们将使用Python的datetime和pandas库来完成这个任务。无论你是初学者还是有经验的开发者,都可以从这个教程中获取有用的知识和技巧。

2024-05-15 11:39:15 438

原创 【python数据预处理系列】使用Pandas的factorize()函数进行类别编码(整数编码)

在数据处理中,我们经常需要将数据转换为数值数据或类别数据,以便于机器学习模型的处理。本文将介绍如何使用Pandas的factorize()函数对类别数据进行整数编码。通过一个简单的示例,我们将演示如何使用factorize()函数将类别数据转换为整数编码,并展示转换前后的数据对比。

2024-05-15 11:02:20 478

原创 掌握决策之道:层次分析法(AHP)的步骤、应用与局限性

在面对复杂的决策问题时,如何确保我们的选择既理性又全面?本文将深入探讨一种广泛使用的决策方法——层次分析法(Analytic Hierarchy Process, AHP)。我们将通过一个具体的例子来理解层次分析法的步骤,包括建立层次结构模型、构造判断矩阵、求权重并做一致性检验以及根据权重矩阵计算得分和排序。我们还将讨论判断矩阵不满足一致性检验时的修正方法,以及层次分析法的优点和局限性。最后,我们将探索层次分析法的适用情况,帮助你在需要做出重要决策时,能够更加自信和有条理地进行分析和选择。无论你是在学术

2024-05-13 13:53:16 1623

原创 【数据处理系列】深入理解递归特征消除法(RFE):基于Python的应用

在机器学习中,特征选择是一个重要的步骤,它有助于提高模型性能,减少计算复杂度。本篇博客将详细介绍一种称为“递归特征消除法”(Recursive Feature Elimination,简称RFE)的特征选择方法。我们将首先介绍RFE的基本概念和原理,然后讨论如何选择合适的模型进行RFE,接着通过Python示例展示如何使用RFE和RFECV(交叉验证递归特征消除法)进行特征选择。最后,我们将探讨如何根据特征重要性排序、查看最优特征数、名称以及绘制交叉验证得分随特征数量的变化曲线图等。无论你是机器学习新手还是

2024-05-10 13:36:35 3547 5

原创 [机器学习系列]深入探索回归决策树:从参数选择到模型可视化

在这篇博客中,我们将深入探讨回归决策树的构建和应用。首先,我们将讨论如何选择和调整回归决策树的关键参数,以优化模型的性能。接着,我们将准备用于训练和测试的数据,并进行必要的预处理。然后,我们将构建回归决策树模型,包括拟合模型、预测数据、查看特征重要性以及评估模型拟合效果。最后,我们将通过可视化工具展示回归决策树的真实值和预测值,以及决策树的结构。这篇博客旨在帮助读者全面理解回归决策树的工作原理,并通过实践案例提升其在数据科学领域的应用能力。

2024-05-09 21:41:46 452

原创 使用Tkinter实现数据预测工具的GUI界面展示

使用Tkinter实现数据预测工具的GUI界面展示

2024-05-08 11:51:19 234

原创 [python数据处理系列] 深入理解与实践基于聚类的过采样与欠采样技术:以K-Means为例

本篇博客将深入探讨过采样和欠采样技术,这两种技术是处理不平衡数据的重要方法。首先,我们将介绍过采样和欠采样的基本概念,以及它们的优缺点。然后,我们将重点讨论基于聚类的欠抽样方法——K-Means欠采样,包括其原理、步骤以及为何选择这种方法。接下来,我们将通过Python代码实现K-Means欠采样,并展示如何确定多数类样本欠抽样的数据量,以及如何从每个簇中选择样本。最后,我们还将简要介绍基于聚类的过抽样方法——K-Means过抽样。希望通过这篇博客,读者能够对过采样和欠采样技术有更深入的理解。

2024-04-29 20:49:59 1355 2

原创 [机器学习系列]深入解析K-Means聚类算法:理论、实践与优化

博客标题:深入解析K-Means聚类算法:理论、实践与优化摘要:本文全面剖析了K-Means聚类算法,从基本概念、作用优点到局限缺点,详细阐述了K-Means的步骤和选取最佳K值的策略。文章通过构建数据集并利用手肘法和目标函数变化两种方法确定最优K值,展示了在Python中实现K-Means聚类的全过程。最后,通过可视化技术和聚类结果分析,加深读者对K-Means算法的理解,并提供新样本预测的方法。无论是数据科学新手还是希望深化聚类技能的研究者,本文都提供了宝贵的知识资源。

2024-04-29 19:21:02 2077

原创 [python数据处理系列] 深入理解与实践:用Python进行主成分分析(PCA)

本文将详细解析主成分分析(PCA)的步骤、作用和参数,并回答一些常见的问题。我们将通过Python代码实现PCA,包括数据导入、降维、查看方差贡献、方差贡献率和累计方差贡献率的可视化等步骤。最后,我们将选择主成分并进行命名,输出降维后的数据,并对主成分分析结果进行可视化。

2024-04-24 15:16:05 2261 1

原创 [python数据处理系列]详解独热编码与标签编码的区别及在Pandas中的实现

本文详细解析了独热编码与标签编码的区别,并演示了如何在Pandas中进行数据集创建和独热编码的实现。同时,还介绍了如何自动对所有分类变量进行独热编码、对指定列进行独热编码以及对进行独热编码的列采用布尔型表示的方法。最后,文章探讨了对数据进行独热编码后,数据变成了什么类型。

2024-04-21 19:37:14 1882 2

原创 深入解析K折交叉验证:原理、应用及优化策略(python实现 代码详解)

本文深度解析K折交叉验证这一重要机器学习工具,从理论概念出发,全面阐述其在提升模型泛化能力、模型性能评估与超参数优选等方面的关键作用。尤其聚焦于如何在K折交叉验证执行过程中记录并精准定位那些对应最高模型得分的训练集与测试集划分情况。结合Python实例,展示如何在模型间性能比较、超参数调整以及寻找最佳训练验证集划分策略上运用此方法,以期实现数据资源的最优化利用和模型性能的持续提升。

2024-04-21 18:42:26 7237 3

原创 决策树分类任务实战(python 代码详解)

本文详尽地介绍了使用Python创建决策树模型的全过程,并详细解释了两种主要的参数优化技术:基于for循环的手动调参和效率更高的网格搜索方法。同时,文中提供了如何将决策树进行可视化展示、在本地计算机上保存该模型,以及如何分析和理解决策树中的重要性能指标的步骤。此外,还探讨了K折交叉验证的实际应用,以增强模型评估的准确性。

2024-04-21 11:40:34 1743 4

原创 python实现将数据标准化到指定区间[a,b]+正向标准化+负向标准化

python实现将数据标准化到指定区间[a,b]+正向标准化+负向标准化

2024-04-18 13:10:03 476

原创 python实现将数据框中的某一列变成索引列数据(将特征列变成索引列)

python实现将数据框中的某一列变成索引列数据(将特征列变成索引列)

2024-04-17 20:27:05 439 1

原创 搭建PyTorch神经网络进行气温预测(手写+调包两种方法)(保证学会!)+找到神经网络的最优情况

代码上有注释!!!!!!本篇主要包括三大部分:第一部分:导入数据集+导入第三方库+数据集简单介绍与可视化+数据集简单预处理第二部分:手写神经网络代码实现气温预测(手写)第三部分:调包搭建神经网络实现气温预测(调包)+找到最优网络模型及其参数

2024-04-11 20:37:41 1477 7

原创 (详解)安装3.4.1.15版本的opencv-python和opencv-contrib-python

(详解)安装3.4.1.15版本的opencv-python和opencv-contrib-python

2024-03-01 14:46:41 4948 17

【python操作neo4j构建企业间的业务往来知识图谱】

本章节通过聚焦于"金额"这一核心属性,构建了一幅知识图谱,旨在揭示"销售方"与"购买方"间的商业互动网。在这张图谱中,绿色节点象征着购买方,而红色节点则代表了销售方。这两类节点间的紧密连线,不仅映射了双方在市场活动中的合作桥梁,还特别以不同颜色编码的线条区分了交易的规模等级:细分为1000万级别、2000万级别、5000万级别乃至8000万级别的交易纽带,以此精准描绘出商业交易的多样性和规模层次。

2024-06-28

【python操作neo4j构建企业间的业务往来知识图谱】

本章节通过聚焦于"金额"这一核心属性,构建了一幅知识图谱,旨在揭示"销售方"与"购买方"间的商业互动网。在这张图谱中,绿色节点象征着购买方,而红色节点则代表了销售方。这两类节点间的紧密连线,不仅映射了双方在市场活动中的合作桥梁,还特别以不同颜色编码的线条区分了交易的规模等级:细分为1000万级别、2000万级别、5000万级别乃至8000万级别的交易纽带,以此精准描绘出商业交易的多样性和规模层次。

2024-06-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除