- 博客(48)
- 收藏
- 关注
原创 【机器学习】集成学习---投票法(Voting)
集成学习是一种强大的机器学习方法,它通过构建并结合多个学习器(也称为“基学习器”或“弱学习器”)的预测结果来完成学习任务。集成学习的主要目的是通过结合多个学习器的预测结果来提高模型的泛化能力和鲁棒性,降低单一学习器可能存在的过拟合或欠拟合风险。集成学习的基本原理在于,不同的学习器往往具有不同的偏差和方差特性,它们在各自的训练数据集上可能会产生不同的预测结果。当我们将这些学习器的预测结果进行某种形式的结合时,可以期望它们的偏差和方差特性能够相互抵消或互补,从而得到更加稳定和准确的预测结果。
2024-04-25 18:02:29 7391 212
原创 NumPy中的split方法:深入理解与实际应用
其中,split方法作为NumPy中处理多维数组的重要工具之一,对于数据的拆分和重组有着广泛的应用。在结束本文之前,需要强调的是,尽管split方法在处理数据时非常有用,但在实际项目中,我们还需要结合其他数据处理和分析工具和技术,如Pandas、Matplotlib等,以形成完整的数据处理和分析流程。因此,建议读者在掌握NumPy的split方法的同时,也关注其他相关工具和技术的学习和应用。然后,我们使用split方法将样本拆分为训练集和测试集,其中训练集包含80%的样本,测试集包含剩下的20%。
2024-04-24 14:42:03 703 19
原创 【机器学习-18】特征筛选:提升模型性能的关键步骤
我们将介绍不同类型的特征筛选方法,包括基于统计的方法、基于模型的方法和嵌入式方法等,并详细解释每种方法的原理和适用场景。通过特征筛选,我们可以减少数据集的维度,降低模型的复杂度,提高模型的泛化能力,并加速模型的训练过程。通过选择适当的特征筛选方法,我们可以减少模型的复杂度,提高模型的泛化能力,并加速模型的训练过程。然而,并非所有的特征都对模型的性能提升有所贡献,有些特征甚至可能是冗余的、噪声较大的或者与目标变量无关的。我们的目标是通过特征筛选选择出对欺诈检测最有用的特征,以提高模型的预测精度。
2024-04-22 17:20:57 9480 268
原创 【机器学习】分类与预测算法评价的方式介绍
在机器学习中,分类算法的性能评价是至关重要的一环。不同的评价指标能够从不同角度反映算法的优劣,从而帮助我们更全面地理解算法的性能特点。以下将详细介绍几种常见的分类算法评价方式。
2024-04-19 17:17:40 13981 243
原创 Python中的IndentationError:unindent does not match any outer indentation level错误解析
缩进是Python编程中非常重要的语法规则之一。为了避免错误,我们应该始终注意保持代码块内缩进的一致性,并避免混合使用空格和制表符。通过仔细检查并修正缩进,我们可以确保代码的正确性和可读性。
2024-04-17 15:25:00 1443 32
原创 【机器学习-17】数据变换---小波变换特征提取及应用案列介绍
小波变换作为一种前沿的数据分析工具,近年来在信号分析领域崭露头角。小波分析的理论和方法凭借其独特优势,在信号处理、图像处理、语音处理、模式识别以及量子物理等多个领域得到了广泛的应用,堪称近年来在工具及方法上的重大突破。小波变换以其多分辨率的特性,在时域和频域均展现出对信号局部特征的强大表征能力。通过伸缩和平移等运算过程,小波变换能够对信号进行多尺度聚焦分析,为非平稳信号的时频分析提供了一种有效手段。它允许我们由粗及细地逐步观察信号,从而精准地提取出有用信息。
2024-04-16 17:30:52 8731 249
原创 【机器学习-16】深入剖析贝叶斯算法原理及其广泛应用
1. 总结贝叶斯算法在机器学习中的核心价值和意义贝叶斯算法在机器学习中扮演着至关重要的角色,其核心价值和意义主要体现在以下几个方面:首先,贝叶斯算法提供了一种基于概率的推理框架,能够处理各种不确定性和复杂性。在现实世界的数据集中,特征之间的依赖关系、类别的模糊性等问题往往难以避免。贝叶斯算法通过计算条件概率来估计类别的后验概率,从而能够在这些不确定性中找到最可能的分类结果。其次,贝叶斯算法具有坚实的数学理论基础,其推导过程清晰且易于理解。这使得贝叶斯算法在实际应用中具有较高的可靠性和稳定性。
2024-04-13 18:00:00 10325 290
原创 【机器学习-15】决策树(Decision Tree,DT)算法介绍:原理与案例实现
决策树算法是机器学习领域中的一种重要分类方法,它通过树状结构来进行决策分析。决策树凭借其直观易懂、易于解释的特点,在分类问题中得到了广泛的应用。本文将介绍决策树的基本原理,包括熵和信息熵的相关概念,以及几种经典的决策树算法。
2024-04-10 16:30:18 10801 263
原创 【机器学习-14】K-means聚类算法:原理、应用与优化
在众多聚类算法中,K-means算法因其简单高效而备受青睐。K-means算法的基本思想是:通过迭代的方式,将数据划分为K个不同的簇,并使得每个数据点与其所属簇的质心(或称为中心点、均值点)之间的距离之和最小。具体来说,K-means算法的执行过程通常包括以下几个步骤:首先,随机选择K个数据点作为初始的簇质心;然后,根据每个数据点与各个簇质心的距离,将其分配给最近的簇;接着,重新计算每个簇的质心,即取簇内所有数据点的平均值作为新的质心;
2024-04-07 15:48:14 13906 272
原创 【机器学习-13】K-近邻算法(KNN)介绍、应用及文本分类实现
相似的对象在特征空间中距离相近。具体来说,对于待分类的样本,KNN算法首先计算它与训练集中每个样本之间的距离。然后,算法选取距离最小的K个样本,这些样本被称为“邻居”。最后,根据这些邻居的类别标签,通过投票或加权平均等方式,确定待分类样本的类别。KNN算法的核心在于距离度量,它决定了样本之间的相似度。通过选择合适的距离度量方法,KNN算法能够准确地找出与待分类样本最相似的邻居,从而进行准确的分类。为了演示KNN算法在文本分类中的应用,我们选择了一个公开的文本分类数据集,如20 Newsgroups数据集。
2024-04-04 14:07:06 6761 266
原创 【机器学习-12】数据探索---python主要的探索函数
深入探讨了数据预处理的重要性,并介绍了诸如插值、数据归一化和主成分分析等关键技术。这些方法有助于我们清理数据中的噪声、消除异常值,以及降低数据的维度,从而为后续的机器学习模型训练提供更有价值的信息。
2024-04-01 14:39:03 9585 267
原创 解决“ValueError: negative dimensions are not allowed”错误的全面指南
ValueError: negative dimensions are not allowed”是一个常见的numpy错误,通常是由于提供了无效的维度参数导致的。解决这个问题的关键在于确保所有的维度参数都是正数。这可能需要仔细检查和调试代码,以及使用条件语句来处理可能产生负数的计算。在编写处理numpy数组的代码时,我们应该始终注意确保维度参数的有效性。同时,我们也应该学会如何调试和修复这类常见的错误,以提高代码的健壮性和可靠性。
2024-03-30 12:55:47 3046 39
原创 【机器学习-11】数据探索(Data Exploration)---数据质量和数据特征分析
介绍了在机器学习项目中,数据探索(Data Exploration)是至关重要的一步,它不仅是模型构建的基础,还是确保模型性能稳定、预测准确的关键。数据探索的过程中,数据质量和数据特征分析占据了核心地位。数据质量直接关系到模型能否从数据中提取有效信息,而数据特征分析则决定了模型能否准确捕捉数据的内在规律和模式。
2024-03-29 10:35:09 4612 289
原创 解决“ValueError: negative dimensions are not allowed”错误的全面指南
ValueError: negative dimensions are not allowed”是一个常见的numpy错误,通常是由于提供了无效的维度参数导致的。解决这个问题的关键在于确保所有的维度参数都是正数。这可能需要仔细检查和调试代码,以及使用条件语句来处理可能产生负数的计算。在编写处理numpy数组的代码时,我们应该始终注意确保维度参数的有效性。同时,我们也应该学会如何调试和修复这类常见的错误,以提高代码的健壮性和可靠性。
2024-03-28 10:47:19 1422 31
原创 解决“AttributeError: ‘numpy.ndarray’ object has no attribute ‘value_counts’”错误的全面指南
如果你不想将numpy.ndarray转换为pandas.Series,也不想使用numpy的高级函数,还可以编写自定义函数来计算numpy.ndarray中每个元素的出现次数。虽然这种方法相对于直接使用pandas或numpy的内置函数可能较为繁琐,但它能够更灵活地处理一些特殊需求。# 假设我们有一个numpy数组# 自定义函数来计算numpy数组中每个元素的出现次数# 创建一个空字典来存储元素和它们的计数# 遍历数组中的每个元素# 如果元素已经在字典中,增加其计数。
2024-03-27 10:10:09 1397 27
原创 解决“ModuleNotFoundError: No module named ‘transformers’”错误的全面指南
通过本文,我们深入探讨了ModuleNotFoundError: No module named ‘transformers’错误的原因、解决方案以及相关的Python包和模块知识。我们提供了安装transformers库的方法,并解释了如何管理和使用Python的包和模块。通过理解这些基础知识,你可以更好地管理和组织你的Python项目,并有效地解决类似的错误。随着自然语言处理领域的不断发展,transformers库和其他相关库将继续更新和扩展其功能。
2024-03-26 15:23:23 1920 13
原创 【机器学习-10】数据降维主成分分析PCA
主成分分析(Principal Component Analysis,简称PCA)是一种统计分析方法,它旨在通过正交变换将原始特征空间中的线性相关变量转换为新的线性无关变量,即主成分。这些主成分能够保留原始数据的大部分信息,同时降低数据的维度,使得数据的处理和分析更加高效。PCA的原理基于数据的方差最大化思想。方差代表了数据的离散程度,方差越大,说明数据在该维度上的变化越丰富,所包含的信息也就越多。
2024-03-26 09:58:02 6944 280
原创 【pd.read_sql()报错】ImportError: Unable to find a usable engine; tried using: ‘sqlalchemy‘.
错误提示指出 pandas 需要版本为 ‘1.3.0’ 或更新的 ‘sqlalchemy’,但是当前安装的是 ‘1.2.7’ 版本,这是一个过时的版本。在 pandas 的 read_sql 函数中,并没有直接的 schema 参数,所以这个错误很可能来自于 engine 对象初始化时或者是在底层的 SQLAlchemy 连接中不正确地传递了 schema 参数。**检查 SQLAlchemy 版本:**确保你使用的 SQLAlchemy 版本与 pandas 兼容。
2024-03-25 14:54:31 400 19
原创 【能源数据分析-00】能源领域数据集集锦(动态更新)
大数据科学在能源领域的深度应用,已经深刻改变了这一行业的垂直格局。它为我们提供了宝贵的见解,帮助降低下游市场的成本,使石油生产商能够更好地应对市场繁荣期的需求。近期,石油价格的剧烈下跌给全球经济带来了沉重打击,而价格的频繁波动以及能源项目的高昂成本,使得高质量的信息变得至关重要。如今,随着组织开始利用流数据技术来提升能源效率,大数据已经成为实现这一目标的关键工具。例如,某大型大学就通过监控和分析其能源使用的流数据,结合天气数据,实现了对能源利用和生产的实时优化调整。
2024-03-25 11:12:04 1073 4
原创 【机器学习-09】特征工程
特征工程是机器学习模型构建的初步工作,但它的重要性却贯穿整个模型生命周期。在进行特征工程时,我们需要充分利用数据科学的知识和技巧,结合具体的应用场景和业务需求,来制定出最合适的特征提取和转换策略。只有这样,我们才能为机器学习模型提供最有价值的输入,从而使其发挥出最大的潜力。总之,特征工程是机器学习中的一项关键任务,它需要我们用心去探索、去实践、去创新。只有不断地优化和完善特征工程的过程,我们才能构建出更加准确、更加可靠的机器学习模型,为实际应用带来更大的价值。
2024-03-24 14:23:17 5522 14
原创 【数据分析案列】--- 北京某平台二手房可视化数据分析
通过对北京某平台二手房数据的可视化分析,我们可以得出以下结论:北京二手房市场的价格呈现出明显的分布特点,不同价格区间的房屋数量和价格水平存在差异。房屋面积在北京二手房市场中也存在一定的分布特点,不同面积区间的房屋数量和面积大小有所差异。北京各区域的二手房分布不均,一些热门区域的房源较多,价格也相对较高。这些分析结果可以为购房者提供有价值的信息和参考,帮助他们更好地了解市场情况,做出明智的购房决策。同时,对于投资者来说,这些数据分析也可以提供市场趋势和投资机会的线索。
2024-03-23 14:38:28 1275 24
原创 【机器学习-08】参数调优宝典:网格搜索与贝叶斯搜索等攻略
在机器学习模型调优的过程中,找到参数的最佳组合与所需的计算时间之间始终存在一个权衡。当面对超参数空间庞大、维度众多时,选择适当的优化方式显得尤为重要。网格搜索提供了一种全面而系统的搜索方法,通过遍历所有可能的参数组合来找到最优解。然而,当参数空间较大时,网格搜索的计算成本会急剧增加,可能导致优化过程耗时过长。随机搜索则通过随机抽样来减少计算量,同时保持一定的全局搜索能力。它能够在有限的计算资源下快速找到性能较好的参数组合,尤其适用于超参数空间较大或计算资源有限的情况。手动调参。
2024-03-22 09:44:45 6571 61
原创 ModuleNotFoundError: No module named ‘sklearn.cross_validation
当运行机器学习sklearn库中的出现:**ModuleNotFoundError: No module named ‘sklearn.cross_validation’**的错误;
2024-03-21 14:40:34 418 9
原创 【机器学习-07】逻辑回归(Logistic Regression)的介绍和python实现
对于二分类问题,假设我们有一个数据集,其中包含mmm个样本。每个样本由输入特征向量xxx和对应的实际类别yyy组成。我们希望通过逻辑回归模型来预测样本的类别。假设存在一条直线(或超平面),可以将数据集中的样本完全分开。zθ0θ1x1θ2x2θnxnzθ0θ1x1θ2x2θnxn其中,zzz表示线性模型的输出,θ0θ1θnθθ0θ1θnθ表示模型的参数,x1x。
2024-03-21 10:36:34 5431 14
原创 Anconda 在无网络的情况下安装想要的python环境
4、安装Anaconda,并将虚拟环境移植到离线服务器上anaconda/envs/目录下。3、将虚拟环境打包,将虚拟环境和Anaconda安装包拷贝到离线服务器上。2、下载conda-pack环境打包工具 conda-pack。1、在本地安装好自己想要的python环境。5、解压环境压缩包,并激活环境。
2024-03-20 14:48:07 288 8
原创 【pip 安装pymssql报错】 Failed to build pymssql
3)我的成功方式:在https://www.lfd.uci.edu/~gohlke/pythonlibs/#pymssql网站上找到编译好的pymssql文件,和python版本的系统匹配;打开命令行cd到存放下载的文件下,2)查找资料说pip
2024-03-20 14:33:30 312 1
原创 【机器学习-06】线性回归(LinearRegression)的手动建模实验
在【机器学习-01】机器学习一般建模流程yiβ0β1x1βp−1xp−1εii12nyiβ0β1x1...βp−1xp−1εii12...n上述等式的矩阵形式是yXβεy∈RnX∈Rn∗pβ∈Rpε∈RnyXβεy∈RnX∈Rn∗pβ∈Rpε∈Rn其中 Y 是反应变量, X 是解释变量,β 是参数。
2024-03-20 09:30:59 5176 9
原创 【NLP数据标注】windows10部署doccano标注工具
$ doccano init$ doccano createuser --username my_admin_name --password my_password ( zxf 123456)打开浏览器(推荐使用Google),在地址栏中输入 http://127.0.0.1:8000/ 后回车即出现以下界面。登陆账户。点击右上角的LOGIN,输入Step 2中设置的用户名和密码登陆。创建项目。点击左上角的CREATE,跳转至以下界面。 勾选序列标注(Sequence Labeling)
2024-03-19 14:58:05 471 9
原创 【机器学习-05】模型的评估与选择
在前面的文章中我们已经知道了机器学习的一些基本概念和模型构建的流程,本章我们将介绍模型训练出来后如何对模型进行评估和选择等。
2024-03-19 11:18:48 5167 5
原创 【Anaconda环境报错】‘activate.bat‘ 不是内部或外部命令,也不是可运行的程序 或批处理文件
通过检查Anaconda的安装和环境变量配置,尝试使用新的激活命令,使用绝对路径或重新安装Anaconda,你应该能够解决"‘activate.bat’ 不是内部或外部命令,也不是可运行的程序或批处理文件"的错误。这样,你就可以成功激活所需的Anaconda环境,并继续进行Python开发工作了。
2024-03-14 15:27:49 859 1
原创 【内容推荐】基于酒店文本描述来推荐相似酒店
Seattle_Hotels数据集是西雅图酒店数据,数据集下载地址,数据集包含三个字段:酒店姓名、地址、以及内容描述。其中每一行代表一个酒店,数据集的具体格式将在代码实现部分进行展示。
2024-03-13 10:05:40 1050 1
原创 Xgboost、lightGBM和Catboost之间的异同
Level-wise增长可以同时分裂同一层的叶子节点,容易进行多线程优化,且过拟合的风险较小。然而,Level-wise增长也存在一些缺陷,例如对待同一层的叶子节点不加以区分,会带来一些不必要的开销。在CatBoost中,可以将所有列都视为数值变量处理,或者通过设置特定参数来处理分类变量。总结来说,XGBoost、LightGBM和CatBoost在树的特征和对类别型变量的处理上有一些差异。在使用XGBoost时,需要对分类数据进行编码,例如标签编码、均值编码或独热编码等方式,将其转换为数值形式。
2024-03-11 15:24:10 456
原创 tranformers库保姆级使用教程---以BERT模型为例
Transformers库中的pipeline函数是一个非常方便的工具,可以直接使用预训练模型进行文本处理。我们已经探索了分词器的工作原理,并研究了分词 tokenizers、转换为输入 ID conversion to input IDs、填充 padding、截断 truncation和注意力掩码 attention masks。Transformers API 可以通过高级函数为我们处理所有这些。# 可以标记单个序列# 还可以一次处理多个序列"]# 可以根据几个目标进行填充# 还可以截断序列。
2024-03-11 15:16:07 1346
信用卡欺诈检测数据集,和机器学习特征筛选:提升模型性能的关键步骤中的特征筛选代码案列
2024-04-22
机器学习/数据挖掘/数据分析 + pyecharts/seaborn/matplotlib + 二手房分析 + 数据可视化展示
2024-03-23
机器学习 + lightgbm/贝叶斯优化/k折交叉验证 + 基于贝叶斯最优化过程 + 优化模型的代码
2024-03-08
机器学习/工业制造 + ML/xgboost + 异烟酸在生成过程中的各个参数的优化来预测最终的收率
2024-03-07
机器学习 + lightgbm/网格搜索交叉验证 + 贷款违约预测(二分类模型) + 预测一个用户是否会产生违约
2024-03-07
深度学习/NLP + BERT-CRF + 实体识别 + 医学糖尿病数据命名实体识别
2024-03-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人