自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(43)
  • 收藏
  • 关注

原创 解决二分类问题常用的模型以及优缺点和使用场景(二)

• 使用场景:当数据集足够大,且存在复杂的非线性关系时,比如图像、声音和自然语言处理等领域。• 使用场景:数据集中含有较多类别变量时,需要高预测准确性和处理类别特征的能力。• 优点:通过集成多个决策树减少过拟合,提高预测准确性,能处理大量特征。• 使用场景:需要高预测准确性的场景,尤其是在数据集较大且特征较多时。• 缺点:训练时间和资源消耗大,容易过拟合,需要大量的数据和计算资源。• 使用场景:需要快速准确预测结果的场景,特别是在数据集较大时。• 使用场景:特征数量较多,需要较高的预测准确性和鲁棒性时。

2025-05-07 15:43:45 204

原创 解决二分类问题常用的模型以及优缺点和使用场景(一)。

在预测和模型训练中,二分类问题时常用的预测问题,而在Python中处理二分类问题时,可以选择多种有效的机器学习和深度学习模型。• 缺点:假设特征与目标变量之间的关系是线性的,可能无法捕捉更复杂的模式。• 使用场景:当特征与目标变量的关系大致线性,且需要解释性较强的模型时。• 优点:模型简单,易于理解和解释,可以直接给出事件发生的概率。• 优点:模型直观,易于理解和可视化,能处理数值和类别特征。逻辑回归 (Logistic Regression)决策树 (Decision Tree)支持向量机 (SVM)

2025-05-07 15:39:49 262

原创 回归问题常用模型以及优缺点和使用场景

在Python中处理回归问题时,有许多经典的统计学和机器学习模型可供选择。• 优点:强大的表达能力和学习能力,适合处理复杂的非线性关系。• 优点:高预测性能,自动处理缺失值,抗过拟合能力强。• 使用场景:特征选择和处理多重共线性同时重要时。• 使用场景:数据分布均匀,局部相似性较强的情况。• 使用场景:大型数据集,特别是当数据模式复杂时。• 使用场景:数据集较小,需要解释性强的模型时。• 使用场景:特征众多且可能存在相关性的数据集。• 优点:速度快,内存占用低,特别适合大数据集。

2025-04-28 19:15:16 443

原创 对于多分类问题,如何选择合适的模型,列模型及各模型的优缺点和使用场景如何?

• 优点:强大的表达能力和学习能力,适合处理复杂的非线性关系。• 优点:直观易懂,不需要数据预处理,能够处理非数值型数据。• 缺点:容易过拟合,不稳定,小的变化可能导致结构完全改变。• 优点:对小样本有效,能解决非线性问题,泛化能力强。• 使用场景:解释性强的场合,数据不完整或包含错误时。• 优点:减少过拟合风险,预测精度高,能处理大量特征。• 优点:高预测性能,自动处理缺失值,抗过拟合能力强。• 优点:易于理解和实现,计算效率高,输出概率值。• 优点:速度快,内存占用低,特别适合大数据集。

2025-04-24 11:32:17 361

原创 分类算法中one-vs-rest策略和one-vs-one 策略的区别是什么?

因此,“multiclassova”可能是指使用了 OvO 方法来解决多类分类问题,而“multiclass”通常意味着分类器本身能直接处理多类问题,或者指使用了 OvR 方法(虽然术语上不太常见)。然而,当提到“one-vs-rest”(OvR)和“one-vs-one”(OvO)策略时,我们是在讨论解决多类分类问题的具体方法。'multiclass' 表示 one-vs-rest 策略,而 'multiclassova' 则是 one-vs-one 策略。

2025-04-21 09:00:04 524

原创 python中,处理多分类时,模型之间的参数设置

默认情况下,对于二分类问题,它采用“ovr”(one-vs-rest)策略,而对于多分类问题,默认会自动切换至“multinomial”,即多项式逻辑回归,适用于多分类情况。随机森林本身就能很好地处理多分类问题,无需额外设置多分类参数。然而,可以调整诸如max_depth, min_samples_split, 和min_samples_leaf这样的参数来优化模型性能。在Python的机器学习库中,处理多分类问题时,不同的模型可能会有不同的参数设置来适应多分类场景。

2025-04-18 15:20:50 588

原创 统计学(贾俊平)学习笔记--第三章、 数据预处理

数据预处理无论是从数据分类分析、数据信息抽取、数据挖掘、模型建立等方面都是需要的,也是数据工作者最开始招手做的,而统计学(贾俊平)中从理论的角度讲解了数据预处理的概念和方法吗,在此将主要要点列举如下,供有心人参考学些。

2024-09-07 15:42:41 460

原创 全能型AI和专业型AI产品的优劣势?

而从经济市场的广阔性来看,全能型AI产品理论上具有覆盖更多应用场景和行业的潜力,跨领域、多功能的,可以满足不同领域、不同需求的用户,从而在更广泛的市场上有更广阔的商机,进而扩大其经济市场规模。但是这种广泛的适用性可能吸引更多企业和机构,但是对于具体的企业和机构来说,其使用的只是模型中的一个部分甚至一个点的功能,如果这个功能不能专业化、不深入细致,对于工作指导性不新颖、没有创新性,反而会让使用者深受其害。从目前网上流行的说法,Open AI的神秘项目“草莓”,并没有说明是一个全能型的项目。

2024-09-07 15:25:39 464

原创 Python疑难杂症(20)---在Python语言中使用Pandas模块查看数据框中数据的总体概况

可以对数据的大小和范围有一个总体的观察。这个命令可以对于数据值型数据有一个总体的概括分析,包括每个属性的有多少观察值,平均值是多少、标准差多少、最大值、最小值以及四分位 的值是多少,即对于数据范围有一个全面的认识。使用的数据为五粮液从2021年1月1日到2024年4月12日的交易行情,列数为序号、日期、开盘、收盘、最高、最低价格、成交量、成交额、振幅、涨跌幅、换手率等12个字段,793条记录。从上面的显示可以看出:数据索引的范围和取值、列的个数和列名称,每个列的数据类型,每个类的数据个数和是否存在空值等。

2024-09-05 18:23:00 1119

原创 python语言读入Excel文件

使用数据为五粮液从2021年1月1日到2024年4月12日的交易行情,列数为序号、日期、开盘、收盘、最高、最低价格、成交量、成交额、振幅、涨跌幅、换手率等12个字段,793条记录。练习python的函数read_excel()函数读入execl文件

2024-09-05 09:10:10 850

原创 数据分析应该具有数据化思维--如何锻炼自己的数据话思维

要想锻炼自己的数据话思维,可以从看的书籍、电影入手,既可以娱乐,又可以练习自己的数据化思维。

2024-08-15 21:58:20 283

原创 统计学(贾俊平)学习笔记--第二章

本章主要讲解了数据来源、调查方法、试验方法,以及数据抽样误差、非抽样误差,误差产生的原因等内容。该章内容较简单,不在仔细分析。这些也是数据来源的方法,大家可以了解,本节列出和数据分析息息相关的连个概念抽样误差合肥抽样误差。

2024-08-15 08:54:12 416

原创 统计学(贾俊平)学习笔记--第一章

统计学(贾俊平)学习笔记--第一章,总结知识点,和基本的理论概念。第一章主要讲述了主要的两个统计方法、统计数据的分类和统计中的几个基本概念,这些基本概在数据分析挖掘中经常使用的,希望牢记和体会。

2024-08-09 18:22:19 718

原创 统计学(贾俊平)第八版,学习笔记------后续将逐步发表,欢迎光顾,探讨,学习。

统计学中好学内容和数据分析和挖掘息息相关,学习学习这项内容,对于数据分析思想和挖掘方法有意的,所以下一步将逐渐更新学习笔记的内容。供参考

2024-08-09 18:15:00 465

原创 Python疑难杂症(20)---介绍Python的pandas模块中将数据导入内存和导出数据的方法,以及一些参数的用法。

Python的pandas模块中数据框这种数据类型,可以通过文件导入函数,将磁盘上的csv、execl等类型的文件装入内容,并生成数据框的格式,然后使用pandas的专有方法进行处理。

2024-04-17 18:01:58 1149

原创 Python疑难杂症(19)----介绍Python的pandas模块的数据框DataFrame的概念,以及多种创建数据框方法,在创建过程中综合应用了python前面章节的知识点,利于深入理解。

本部分介绍Python的pandas模块数据框DataFrame的概念,以及多种创建数据框的方法,创建过程中综合使用了python其他章节的知识,包括列表、字典、numpy和series的知识点,便于混合使用编程语言知识点,锻炼编程思想和深入理解各层级的知识,以及综合应用知识的能力。

2024-04-17 08:48:45 1064

原创 Python疑难杂症(18)----深入介绍Python的pandas模块的series对象的多种创建方法、数学运算、信息统计、数据的查看赋值、以及清洗方法。本章学透了,可深入掌握一维数据的高级操作

深入介绍Python的pandas模块的series对象的多种创建方法、数学运算、信息统计、数据的查看赋值、以及清洗方法。通过本部分的学习,可以深入掌握一维数据的高级操作以及数据处理等方法,为后续的数据分析和深度挖掘打下基础。

2024-04-16 17:24:18 1187 1

原创 Python疑难杂症(17)---介绍Python的pandas模块特点、安装以及series的创建和元素值的获取等。对于一维数据和使用有了初步的概念

介绍Python的pandas模块特点、安装以及series的创建和元素值的获取等。对于一维数据和使用有了初步的概念。

2024-04-16 17:00:47 877

原创 Python疑难杂症(16)---Numpy知识集合(四)列出Numpy模块的常用函数,供查询参考。

列出Numpy模块的常用函数

2024-04-03 13:49:39 355

原创 Python疑难杂症(15)---Numpy知识集合(三)介绍Numpy第三部分内容,包括创建指定数值的数组、改变数组大小形状、如何引用数据的数据元素等内容。

Numpy知识集合(三)介绍Numpy第三部分内容,包括创建指定数值的数组、改变数组大小形状、如何引用数据的数据元素等内容。

2024-04-03 10:41:35 422

原创 Python疑难杂症(14)---Numpy知识集合(二)学习Python的NUMpy模块的定向取值、聚合分析函数、矩阵运算等

学习Python的NUMpy模块的定向取值、聚合分析函数、矩阵运算等

2024-04-01 17:33:32 909

原创 Python疑难杂症(14)---Numpy知识集合(一),介绍Numpy的概念、创建、数组运算等内容,对于该模块有个初步的认识。

NumPy模块是Python语言用于科学计算、机器学习、数据分析的核心程序包之一,提供了强大的数组对象和数学函数,它简化了向量和矩阵的操作处理,而。Python 的一些主要模块软件包象 scikit-learn、SciPy、pandas 和 tensorflow都以 NumPy 作为基础运算和架构部分。

2024-04-01 14:39:20 1000

原创 Python的模块pandas初探,希望大家留下你的宝贵意见

pandas是一个强大的数据分析工具包,建立在NumPy库之上。它提供了高效、灵活的数据结构和数据分析工具,可以快速处理和分析数据。pandas的主要数据结构是Series(一维数据)和DataFrame(二维数据)。Series类似于一维数组,每个值都与一个索引相关联。DataFrame类似于一个表格,包含多个行和列,每个列可以是不同的数据类型。历史笔记还原初探。

2024-03-15 18:47:02 420

原创 python的对象和类的用法---AI合成,看看这个内容如何,AI的智力有进步吗?---这是AI原创

python的对象和类的用法---AI合成的文章,大家看看内容如何?

2024-03-15 18:20:37 422 2

原创 Python疑难杂症(13)---Python的几个比较难理解的内置函数,包括range、zip、map、lambda、filter、exec、compile、globals等

Python的几个比较难理解的内置函数,包括range、zip、map、lambda、filter、exec、compile、globals等

2024-03-15 15:58:03 1120 2

原创 python疑难杂症(12)---生成器、迭代器的基本概念、以及他们之间的关系区别

Python的迭代器和生成器是其量大特色法器,常常用于简化代码、降低数据占用内存提高运行速度上,学会这两件法器,使用Python语言也可以猪鼻子插大葱了。在Python中,迭代器是要求支持迭代器协议的对象,而支持迭代器协议就是实现对象的iter()和next()方法。生成器是一种特殊的迭代器,它可以通过函数中的yield语句来生成值。

2024-03-14 14:24:35 451 1

原创 python疑难杂症(11)---Python最新版本内置函数大全(3.12.2),包括转换、运算函数,容器、序列、对象、迭代、输入输出等函数的简要说明和部分疑难杂症函数的使用。

内置函数是指在Python解释器中直接可以调用的函数,无需额外导入模块(不需要使用import)。python随着版本的迭代,内置函数也越来越多,最新稳定版本3.12.2 ,其内置函数为71个 ,如 `print()`、`len()`、`type()`等都是内置函数,还有一些比较怪异的函数。,简单的用法。

2024-03-14 10:08:43 1021 2

原创 python疑难杂症(10)---Python函数def的定义分类,包括内置函数、外置函数、匿名函数、闭包函数、生成器函数等

函数是大多数编程语言使用的一个概念,函数是一段具有一定功能程序体,可以被反复多次调用。函数包含以下特征:1、函数名:用于标识函数的的字符串,并可以通过该函数名调用执行函数,实现其功能,在python中,使用def 开头,后面跟 ( 括号和参数。以:结束如下:print( f'打印的字符串是:{ string1}')')2、参数:输入给函数的值,这个是函数接收外部数据的接口,在函数内部可以使用参数进行操作或计算。3、函数体:是一段可以执行的代码块。在函数体中可以进行各种操作、计算等。

2024-03-12 14:31:08 1435 2

原创 python疑难杂症(9)---python的数据类型字典(dict)的创建、访问、修改、删除等方法汇总

Python中的字典主要有以下一些特点:无序性:字典中的元素没有固定的顺序,不能通过索引来访问元素。可变性:可以向字典中添加、修改或删除元素。唯一键:字典中的键必须是唯一的,如果添加了相同的键,则后面的键值对会覆盖前面的键值对。值可重复性:在字典中的键值对中,键是唯一的,而值是可以重复的,即同一值可以跟到不同的键值后。

2024-03-12 09:35:10 1944 1

原创 python疑难杂症(8)---Python中集合(Set)数据类型,集合的创建、操作符号、方法、基本函数等

Python的集合是一种无序、可变的数据结构,它是另一种变量类型。集合用于存储唯一的元素。集合中的每个元素都是唯一的,并且没有固定的顺序。需要注意的是,集合是无序的,没有固定的顺序。因此,集合元素的顺序可能与你创建或添加的顺序不同。集合具有以下特点:

2024-03-05 18:01:04 1208 1

原创 python疑难杂症(8)---元组(tuple)的创建、遍历、操作等特性。

除了列表,Python 中还有另一个重要的数据结构——元组(tuple)。元组在Python中算比较有特色的类型,其特征和列表有许多相似之处。有序:元组像列表一样是有序时,意味着项目有一个定义的顺序,而且该顺序不会改变。不可变:列表是可变的,元组元素是不可变的,这意味着我们在创建列表后,不能更改、添加和删除项目。元组具有索引,第一项的索引为[0],第二项的索引为[1],依此类推。允许重复:和列表一样,由于原则具有索引,所以列表可以包含具有相同值的项目。

2024-03-05 17:53:03 1616 1

原创 python疑难杂症(7)---expressions.py:20: UserWarning: Pandas requires version ‘2.7.3‘ or newer of ‘numexpr

在python中错误与警告的区别:错误信息是致命的,是异常,常常导致程序不能正常往下执行,必须修改正确后再往下执行;而警告信息warning通常并不影响程序的运行,常常由于版本问题或者过时的原因引起,紧急程度比较低,多数警告都是可以直接忽略的。有些警告虽然可以忽略,但是可能在运行上对于性能等有影响,需要对警告处理。UserWarning: Pandas requires version '2.7.3' or newer of 'numexpr' (version '2.7.1' currently inst

2024-03-01 09:26:32 1170

原创 python疑难杂症(6):咱也说,Python报错信息: TypeError: ‘list‘ object is not callable,原因和注意事项

python的报错信息如TypeError: 'float' object is not callable;TypeError: 'list' object is not callable等类似的报错信息“TypeError: '????' object is not callable”,这类的object is not callable错误,在实际应用中常常出现,但是错误有很隐蔽,查找起来很困难,而网上搜到的答案都是就事论事,没有说出问题的实质,下面将对这类问题做已全面的论述,起到举一反三的作用。

2024-02-28 15:20:05 2017

原创 python疑难杂症(5)——列表操作的继续:修改、删除、排序、遍历等,列表可以用的内置函数。

列表是python重要的内置数据类型,其属性和操作是numpy外置类型的基础,理解好了列表这种类型,更有利于理解数据表的概念和操作。现在继续前面对于列表的介绍,其中将列表的操作过程中可能出现的问题和疑难杂症等罗列其中,并将常使用列表内部方法列出,供大家参考。

2024-02-28 15:09:20 1295

原创 python疑难杂症(4)——列表操作的补充:创建、拼接、访问等

列表是python重要的内置数据类型,其属性和操作是numpy外置类型的基础,理解好了列表这种类型,更有利于理解数据表的概念和操作,在将列表的属性、特性、已经创建、增删改查询等内容做一次全面的介绍,供参考学习。

2024-02-26 19:13:39 1352 1

原创 python疑难杂症(3)——常用的开发工具和数据分析、挖掘模块。

Python作为最流行的开发语言之一,市面上的开发工具也是五花八门。工欲善其事必先利其器,一个好的开发和编译工具能起到事半功倍的效果,优秀的开发工具可以帮助开发者更便捷、快速的实现开发过程。同时python之所使用广泛,是因为有着丰富的开发包(模块),这模块组成了python的强大功能,为了让大家对于改语言有着总体把握,将常见的开发工具和数据包罗列如下,供大家参考。

2024-02-26 11:21:49 1020 1

原创 python疑难杂症(2)——列表应用和注意事项

Python语言的数据类型列表(list)是一种强大的数据结构,它是由 [ ] 括起来,由一系列按特定顺序排列的值组成的,这些值可以是整数、浮点数、字符串,或另一个列表,甚至是不同类型的数据都可以被容纳在列表中。列表具有灵活性和易用性,是一种有序和可更改的集合,允许重复的成员。它可以支持各种操作,如访问、修改、添加、删除等。同时,列表还可以作为基本数据结构,用于构建更复杂的数据结构,如栈、队列、链表等。

2024-02-22 21:48:38 1182 3

原创 我的创作纪念日--看昨日的R语言几篇文章有感

以后我会经常的提供一些,我在学习和工作中遇到的数据分析、挖掘、模型建立的python等经验和总结,供参考,也是自己的回忆和记录。冬天来了,春天还会远吗?历史和时间,来见证一切吧。

2024-02-19 14:19:16 426 2

原创 疑难杂症(1)python的版本变迁

在实际用应用中,python作为开源,其版本经过多次变迁,比较混乱,对于初学者来说,手头少存在一段代码,但是就是报错,不知从哪里下手,在这里将对python版本的变迁,和差异做一下简单的介绍,供大家参考,学习。

2024-02-19 13:59:17 1176 1

原创 runif函数的另类用法:生成随机时间序列

函数runif可以用来生成随机时间序列

2022-11-26 10:41:55 920

大数据学习笔记_学习《Python数据分析与挖掘实战》关键知识点和心得笔记

学习《Python数据分析与挖掘实战》书籍,学习笔记,以下内容,根据学习心得和理解,将知识的重点和难点,同时对于知识点通过查询其他资料,汇总和分类,便于查找和在学习的理解,再次,供学习该项内容的参考和交流。学习是将书籍有厚变薄的过程,再此,是变薄了,如果需要详细学习源知识内容,可以参见原书内容。 内容包括: 分类与预测、聚类分析、关联规则、时序模式等内容的概念、模式和几个常见算法的理解。

2022-09-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除