![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习和数据挖掘
文章平均质量分 90
机器学习和数据挖掘
AIHUBEI
⏭逐梦江城、饮武当茶、恋鄂北家⏮
展开
-
“DataFrame“ object has no attribute ‘getformat‘
今天在处理一个多标签分类问题的时候,采用了自适应算法的建模策略。初始化MLkNN模型,拟合训练集'X_train, Y_train'之后,得到报错信息如下:'DataFrame' object has no attribute 'getformat'# 原因是参数数据类型不对,API要求参数类型为array,而我原始代码fit()的参数为DataFrame类型;X : array-like of shape (n_samples, n_features) Training vector,.原创 2021-10-25 11:30:45 · 1112 阅读 · 4 评论 -
多标签分类问题与回归问题的转化实现,以及由此产生的一些思考
实验5:完全基于数据挖掘的方法建模预测2021年10月11日在前几个实验过程中,Dr.Li说有大约45个数据特征需要直接删除(基于人工经验的特征选择),作为一个没有任何领域专家所具备的经验知识的菜鸡,甚``是不解,如何判断传感器坏了(需要去现场),为什么说这些特征需要直接删除?这里通过特征工程的方法进行验证。实验思路:数据载入、预处理;没有多少的预处理过程;箱线图、散点图矩阵、heatmap、特征重要性评估;建模预测,套索回归、随机森林回归;模型评估,设想1(计算距离、原创 2021-10-11 22:11:32 · 3204 阅读 · 0 评论 -
模型树–M5
模型树–M5模型树推广了回归树的概念,它与回归树的2个重要不同在于: 叶节点上不是常量,而是一个线性函数模型。 分割空间的标准不是降低平方误差,而是降低样本标准差。 相比于回归树,模型树的优点在于:回归树的计算量随着维度的增加而迅速增加,但模型树比模型小得多,所以模型树在处理高维(数百)数据时会比较轻松。由于叶节点是采用的是线性函数而非常量,所以预测的精度更高。 M5模型树划分的标准是:将一个节点覆盖的样本的Y值(即目标属性值)的标准差看作误差的度量。计算SDR(standa转载 2021-09-23 14:53:04 · 1072 阅读 · 0 评论 -
特征多重共线对随机森林模型预测性能的影响研究
特征共线是否对随机森林模型的预测性能有影响?我们为什么关注特征共线?特征共线就是指数据集中的特征之间匹配得太好或特征高度相关,例如:降雨量和乌云云团大小、织物纤维和吸水能力等;然而,在机器学习模型中,特征共线是一件坏事。它可能造成模型偏向于某些特征,而导致信息丢失,尤其是在多特征回归任务中更是如此。实际上,特征共线对随机森林模型并没有影响。这里将对特征共线对随机森林模型的影响进行讨论。下面是本文的一些参考链接:参考链接1参考链接2# 工具包导入import numpy as npimpo原创 2021-07-25 18:11:07 · 2132 阅读 · 0 评论 -
多元输出回归模型
多元输出回归模型定义多元输出回归是指在给出输入示例的情况下涉及预测两个或多个目标变量的回归问题。回归是指涉及预测数值的预测建模问题。例如,预测大小,重量,数量,销售数量和点击次数是回归问题。通常,在给定输入变量的情况下预测单个数值。一些回归问题需要预测两个或多个数值。例如,预测x和y坐标。示例示例1:在给定输入的情况下预测坐标,例如预测x值和y值。示例2:多步时间序列预测,其中涉及预测给定变量的多个未来时间序列。说明许多机器学习算法都是为预测单个数值而设计的,简称为回归。一些算法确实支持原创 2021-07-23 22:13:58 · 17073 阅读 · 6 评论 -
机器学习中的回归分析
通过回归分析预测连续变量from IPython.display import Image%matplotlib inline1.介绍线性回归线性回归的目标是:对一个或者多个特征与连续型的目标变量之间的关系进行建模。1.1简单线性回归对于单个的特征,单变量线性回归表示如下:y=w0+w1xy=w_{0}+w_{1} xy=w0+w1x其中,w0w_{0}w0代表的是yyy轴截距,w1w_{1}w1代表特征的权重系数。目标就是:学习线性方程的权重,从而描述特征变量与目标变量之间的原创 2021-05-31 14:55:50 · 2301 阅读 · 0 评论 -
聚类分析:原型K-Means/K-Means++聚类、层次聚类;密度聚类DBSCAN
聚类分析–处理无标签数据from IPython.display import Image%matplotlib inline1.使用K-Means方法按照相似度对对象进行分组1.1使用sklearn实现K-Means聚类from sklearn.datasets import make_blobsX, y = make_blobs(n_samples=150, n_features=2, centers=3,原创 2021-05-21 17:52:56 · 1398 阅读 · 4 评论 -
利用机器学习进行情感分析
利用机器学习进行情感分析1.导入电影评论数据集此电影评论数据集包含有50000条评论信息,其中已经标记评论信息在6颗星以上的为positive, 评论信息在5颗星以下的为negative.原始数据下载地址在这里。import pandas as pddf = pd.read_csv('movie_data.csv', encoding='utf-8')df.head(3) review sentiment原创 2021-05-10 16:27:32 · 6513 阅读 · 5 评论 -
集成学习方法归纳与代码实现
组合不同的模型进行集成学习群体决策:一般可以从数据层面、单模型层面(比如模型调参等)、集成学习等方式提升模型性能。Bagging:随机构造训练所使用的数据样本,随机选择特征,通过引入数据上的随机性降低模型方差,减小过拟合。Boosting:从错误中学习,当前模型更加聚焦于上一个模型错分的样本,着力减小偏差。from IPython.display import Image%matplotlib inline1.集成学习集成学习的目标是将不同的分类器组合形成一个元分类器,该组合生成的分类器具原创 2021-05-02 18:27:39 · 1767 阅读 · 2 评论 -
模型评估和超参数调优
模型评估和超参数调优from IPython.display import Image%matplotlib inline1.通过管道Pipeline简化工作流程在正式建立模型之前,一般会经理很多步骤的数据预处理,比如常见的数据清洗,缺失值处理,异常值处理,特征缩放和特征编码,数据降维等等操作。通过使用sklearn中Pipeline类工具包可以实现去拟合一个包含了任意数量的数据转换步骤的模型,并使用它去对新的数据进行预测。1.1加载乳腺癌数据集数据集包含有569个样本和30个特征,各样本分原创 2021-04-30 21:19:33 · 1676 阅读 · 2 评论 -
数据降维:主成分分析PCA、线性判别分析LDA、基于核的KPCA
通过降维实现数据压缩特征提取:将原始特征空间映射变换到新的特征子空间中去特征提取可以理解为一种保持大部分相关信息,同时对数据进行压缩的一种方法。特征提取不仅可以用来提高学习算法的存储空间或计算效率还可以通过减少维数灾难来提高预测性能,尤其是在使用了非正则化模型的时候。from IPython.display import Image%matplotlib inline1.通过主成分分析PCA实现无监督降维主成分分析是一种广泛应用于不同领域的无监督线性变换技术,经常被用于特征提取和降维。PC原创 2021-04-28 20:14:44 · 9908 阅读 · 8 评论 -
缺失值识别-->缺失值处理-->归一化,标准化-->独热编码-->L1和L2正则化-->基于L1正则化特征选择-->序列特征选择-->RF特征重要性度量
数据预处理from IPython.display import Image%matplotlib inline处理缺失值识别表格中的缺失值import pandas as pdfrom io import StringIOimport syscsv_data = \'''A,B,C,D1.0,2.0,3.0,4.05.0,6.0,,8.010.0,11.0,12.0,'''if (sys.version_info < (3, 0)): csv_data原创 2021-04-27 17:42:21 · 1613 阅读 · 4 评论 -
从感知机---->自适应线性神经单元---->逻辑回归---->线性SVM---->kernel SVM
从感知机---->自适应线性神经单元---->逻辑回归---->线性SVM---->kernel SVM机器学习算法可以分为:参数模型和非参数模型。使用参数模型可以从训练数据中学得一个函数,并结合该函数进行模型参数评估,因而可以对新的数据进行分类而无需再次使用原始训练数据集。典型的参数模型:感知机、逻辑回归、线性SVM;非参数模型:模型不能用一组固定的参数来表示,且参数的数量随着训练数据的增多而增长。典型的非参数模型:决策树模型、随机森林模型、核SVM人造神经元利用人造神原创 2021-04-27 09:41:08 · 522 阅读 · 0 评论 -
不平衡数据挖掘综述
不平衡数据挖掘综述author by: AIHUBEI不平衡数据的挖掘方法主要分为两大层面,分别是数据级别和算法级别的处理。在不平衡数据中,拥有较多实例的一类称为多数类,拥有较少实例的一类称为少数类。目前,少数类检测和基于不平衡数据的学习不仅仅作为数据挖掘领域的难题被关注,而是已经成为跨研究领域(从管理学到工程)的难题。如:医疗领域的100000:1的案例已经被报道【1】。在高度不平衡的数据中进行学习,分类器很容易倾向于多数类【2】。同时特征选择的目的是减少冗余特征,保留具有较强区分能力的特征可以提原创 2021-04-19 17:50:22 · 2588 阅读 · 0 评论 -
nltk.download(‘stopwords‘)报错,解决方案
nltk.download(‘stopwords’)报错,解决方案如下#报错信息如下[nltk_data] Error loading stopwords: <urlopen error [Errno 11004][nltk_data] getaddrinfo failed>False1.解决方案手动下载数据,并放在指定位置下载地址:https://files-cdn.cnblogs.com/files/douzujun/stopwords.zip下载解压之后放在哪里原创 2020-08-12 00:04:32 · 9847 阅读 · 6 评论 -
python机器学习ch02
last madified by xiaoyao个人主页Python 机器学习Chapter 2 - Training Machine Learning Algorithms for Classification训练机器学习算法从而实现分类Note that the optional watermark extension is a small IPython notebook plugin that I developed to make the code reproducible. You c原创 2020-08-10 00:07:06 · 667 阅读 · 0 评论 -
python机器学习ch01
python机器学习last modified by xiaoyao个人主页Python Machine Learning - Code ExamplesChapter 1 - Giving Computers the Ability to Learn from DataOverviewBuilding intelligent machines to transform data into knowledgeThe three different types of machine lear原创 2020-08-09 23:58:02 · 253 阅读 · 0 评论 -
数据分析技术用于营销策略(实践项目)
营销策略# coding: utf-8"""Created on Thu Jul 2 22:22:10 2020@author: xiaoyao"""'\nCreated on Thu Jul 2 22:22:10 2020\n\n@author: xiaoyao\n'# 1.导入数据import pandas as pdtrad_flow = pd.read_csv(r'D:\python code\7spyder projects\Python数据科学技术详解与商业实践\2原创 2020-07-02 23:07:59 · 359 阅读 · 0 评论