自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 机器学习(八) ----------支持向量积(SVM)

支持向量机(SVM)是一种强大的机器学习算法,其核心意义在于通过寻找决策超平面来实现数据的精确分类。SVM仅依赖于少量的关键样本点(支持向量)来构建决策边界,这使得它在计算上非常高效,尤其适用于大规模数据集。此外,SVM对噪声和异常值具有较强的鲁棒性,并且能够处理非线性可分问题,使得它在各种分类任务中都具有广泛的应用价值。通过优化结构风险,SVM旨在获得良好的泛化能力,使其对新数据也能做出准确的预测。

2024-05-18 19:37:38 1359 2

原创 机器学习(七) ----------聚类(K-means)

聚类分析是一种强大的数据分析技术,它能够在无监督学习的情境下,根据数据间的相似性和差异性,将数据自动划分为不同的类别或簇。这种方法广泛应用于市场细分、客户画像、图像处理、生物信息学等领域。通过聚类,我们可以发现隐藏在数据中的模式和结构,揭示数据的内在规律,为决策制定提供有力支持。聚类技术不仅提高了数据分析的效率和准确性,也推动了人工智能和大数据技术的发展。

2024-05-17 19:23:18 900 3

原创 机器学习(六) ----------朴素贝叶斯+特征降维

PCA是一种通过降维来简化数据结构的方法,即把原有的多个指标转化成少数几个代表性较好的综合指标。这少数几个指标能够反映原来指标的大部分信息(80%以上),并且各个指标之间保持独立,避免出现重叠信息。

2024-05-16 15:27:45 743 1

原创 机器学习(五) ----------集成学习(2)(Adaboost算法+GDBT算法+XGBoost算法)

Boosting思想是一种强大的机器学习策略,它基于“知错就改”的原则,旨在通过迭代地训练多个弱学习器(如决策树)并将它们组合成一个强学习器,从而提升模型的预测能力。Boosting通过不断调整样本权重,使得先前学习器错误分类的样本在后续迭代中获得更多关注,从而逐步优化模型性能。这种策略不仅提高了模型的泛化能力,还使得模型对复杂问题的处理更加灵活和高效。

2024-05-15 19:27:05 1648 2

原创 机器学习(五) ----------集成学习(1)(集成学习思想+随机森林算法)

集成学习是一种强大的机器学习范式,它通过结合多个学习器的预测结果来提高模型的准确性和稳定性。这种方法的基本思想在于“多样性和投票”,即利用多个基学习器对输入数据进行独立的预测,并通过某种策略将这些预测结果综合起来,得到一个更加可靠的预测结果。

2024-05-14 20:23:12 1006 2

原创 机器学习(五) ----------决策树算法

决策树是一种直观且强大的机器学习算法,它通过树状结构将数据划分为不同的子集,从而进行预测和分类。该算法从根节点开始,根据数据的特征值逐步划分到子节点,最终到达叶节点得出分类或预测结果。决策树模型易于理解,可视化效果好,并且对于非专业人士来说也具有较高的可读性。此外,决策树还具有良好的处理缺失值和异常值的能力,广泛应用于金融、医疗、电商等领域的数据分析中。

2024-05-12 20:21:24 1364 9

原创 机器学习(四) ----------逻辑回归

逻辑回归,一种广泛应用于数据挖掘和机器学习领域的分类算法,其核心思想是通过构建模型来预测事件发生的概率。它采用sigmoid函数将线性组合的特征映射到概率值,实现数据的二元或多元分类。逻辑回归以其计算效率高、易于理解和实现等优点,在疾病预测、经济预测等方面发挥着重要作用。尽管它在线性分类上表现出色,但对于非线性问题则可能面临挑战。总的来说,逻辑回归是机器学习中一种实用且高效的分类算法。

2024-05-11 13:31:40 1081 1

原创 机器学习(三) ----------线性回归算法(梯度下降+正则化)

线性回归算法在机器学习中具有核心地位,它以其简单性和直观性为基础,为理解数据间的关系提供了基本框架。作为许多复杂算法的基础,线性回归不仅用于预测目标变量,还用于解释自变量对目标的影响。同时,它也是机器学习入门的经典算法,对于推广机器学习知识和技术具有重要意义。

2024-05-09 20:38:51 1216 1

原创 机器学习(二) ----------K近邻算法(KNN)+特征预处理+交叉验证网格搜索

KNN算法简单直观,易于理解和实现,并且不需要进行模型训练(即没有显式的训练过程)。然而,KNN算法的计算复杂度较高,特别是对于大型数据集,因为需要计算每个新数据点与所有已知数据点之间的距离。此外,KNN算法对数据的标准化和缩放等预处理步骤较为敏感,因为距离度量是基于特征空间中的数值大小。尽管如此,KNN算法仍然是机器学习领域中的一个重要工具,广泛应用于各种实际问题和场景中。

2024-05-06 13:44:55 1466

原创 机器学习(一) ----------机器学习概述

机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。它专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,并重新组织已有的知识结构,使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径。

2024-05-04 20:53:02 1111

原创 Pandas入门篇(三)-------数据可视化篇3(seaborn篇)(pandas完结撒花!!!)

Seaborn是一个基于Matplotlib的Python数据可视化库,它提供了一种简单而美观的界面,帮助初学者轻松创建各种统计图表和数据可视化效果。Seaborn的设计哲学以美学为中心,致力于创建最佳的数据可视化,同时也保持着与Python生态系统的高度兼容性,可以轻松集成到Python数据分析以及机器学习的工作流程中。Seaborn拥有丰富的可视化函数,能够创建多种类型的图表,包括折线图、柱状图、散点图、核密度图、热力图等等。

2024-04-28 22:04:49 1716 2

原创 Pandas入门篇(三)-------数据可视化篇2(pandas-plot篇)

Pandas 自带的可视化功能通过 plot 方法提供了一种便捷的方式来创建各种类型的图表。plot 方法是基于 Matplotlib 库构建的,因此它继承了 Matplotlib 的强大功能和灵活性,同时简化了绘图过程,使得用户无需深入了解 Matplotlib 的所有细节即可快速创建图表。主要特点和优势:集成性:plot 方法直接集成在 Pandas DataFrame 和 Series 对象中,使得用户可以直接从数据 对象创建图表,无需额外转换数据格式。

2024-04-28 20:00:04 1480

原创 Pandas入门篇(三)-------数据可视化篇1(matplotlib篇)

Matplotlib是一个用于绘制图表和可视化数据的Python库,由John D. Hunter于2003年创建。它是一个开源项目,广泛应用于科研、教育和工程等领域。Matplotlib提供了广泛的绘图功能,适用于科学计算、数据分析、机器学习等领域,并且尤其适用于中小规模的数据集和对可视化定制要求较高的场景。广泛的图表类型:支持多种图表类型,包括线图、散点图、柱状图、饼图、等高线图等,适用于不同类型的数据可视化需求。

2024-04-27 21:41:59 1416 1

原创 Pandas入门篇(二)-------Dataframe篇5(进阶)(Dataframe的时间序列Dataframe最终篇!!)(机器学习前置技术栈)

使用DataFrame处理时间序列数据时,你可以轻松地进行时间戳的转换和格式化。Pandas提供了丰富的函数和方法来处理日期和时间,如pd.to_datetime()用于将字符串转换为日期时间对象,.dt访问器用于访问日期时间的各个部分,以及strftime()方法用于将日期时间对象格式化为字符串。这些功能使得在DataFrame中处理时间序列数据变得简单而直观。此外,DataFrame还支持基于时间的索引操作,如between_time()和at_time()。

2024-04-27 20:41:10 1351 1

原创 Pandas入门篇(二)-------Dataframe篇4(进阶)(Dataframe的进阶用法)(机器学习前置技术栈)

经过前几篇的基础语法的学习,您已经掌握了Dataframe的基础操作。在掌握基础操作后,进一步探索其进阶用法能够让你更高效地处理和分析数据。

2024-04-26 11:51:53 1373

原创 Pandas入门篇(二)-------Dataframe篇3(进阶)(多个Dataframe的关联)(机器学习前置技术栈)

通过合理地关联多个DataFrame,我们可以构建出更加丰富和全面的数据集,为数据分析提供坚实的基础。无论是在学术研究、商业分析还是其他领域,关联多个DataFrame都是数据处理和分析中的关键步骤之一。本篇我们主要介绍Dataframe的数据组合和apply的相关语法。

2024-04-25 19:51:14 668 1

原创 Pandas入门篇(二)-------Dataframe篇2(Dataframe数据的处理!巨详细易懂,适合新手!)(机器学习前置技术栈)

Dataframe在进行数据清洗和预处理时,我们需要遵循一定的步骤和原则。首先,我们需要对数据进行整体的了解和探索,包括数据的来源、结构、分布以及存在的问题等。然后,我们可以根据问题的具体情况选择合适的方法进行清洗和处理。例如,对于缺失值,我们可以选择填充、删除或插值等方法;对于重复值,我们可以选择删除或合并等方法。同时,我们还需要注意保留数据的原始信息和特征,避免在清洗过程中引入新的误差或偏差。本篇详细的介绍了Dataframe进行数据清洗和预处理的api和原则。

2024-04-24 20:31:43 1040

原创 Pandas入门篇(二)-------Dataframe篇1(Dataframe基础知识以及单个Dataframe的处理)(机器学习前置技术栈)

本篇主要演示了Dataframe 属性、Dataframe 创建、Pandas 读取和保存数据、Dataframe 数据的选择、Dataframe 的常用方法、Dataframe 修改行列索引等内容,更多知识点请期待下期

2024-04-23 11:27:30 1388

原创 Pandas入门篇(一)-------Series篇(巨详细易懂!适合新手!!机器学习前置技术栈)

本入门文档旨在向初学者介绍Series的基本概念、创建方法以及常用操作。通过本文档的学习,你将能够掌握Series的基本用法,包括如何创建Series对象、如何访问和修改Series中的数据、如何进行算术和逻辑运算、如何应用统计方法以及如何进行数据转换等

2024-04-21 20:31:12 1045 1

原创 numpy巨全的api及详细介绍(适合小白!机器学习前置技术栈)

NumPy(Numerical Python的简称)是Python中用于进行数值计算的基础库。它提供了高性能的多维数组对象以及用于操作这些数组的工具,使得数值计算任务变得简单而高效。无论你是数据分析师、机器学习工程师,还是科学计算研究者,NumPy都是不可或缺的工具。通过NumPy,你可以轻松创建和操作大型多维数组,执行各种数学运算,如元素级运算、聚合运算和线性代数运算等。这些功能使得NumPy成为处理大量数值数据的理想选择。在入门NumPy时,你将首先学习如何创建数组对象,包括一维数组和多维数组。

2024-04-19 21:24:04 964

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除