机器学习
白日梦想家_胖七七
这个作者很懒,什么都没留下…
展开
-
python-sklearn模型通用方法的介绍
fitget_paramspredictscoreset_params假设训练好的模型名称为clf。原创 2022-10-20 09:16:08 · 1266 阅读 · 0 评论 -
过拟合和欠拟合
在训练集上表现好,在测试集上表现差,模型的泛化性能低。(学习器把训练样本学得太好了,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质)原创 2022-10-13 21:17:56 · 308 阅读 · 0 评论 -
论文翻译之——《基于XGBoost的房价预测优化》-陶然
摘要:客观来说,房价受到诸多因素的制约,正因如此,房价预测仍然是数据分析中一个非常经典且具有挑战性的问题.本文针对房价数据冗余,在实际场景中很难确定重要特征,提出了一种创新的数据预处理方式,并通过双模型迭代拟合的方式进行数据预测.首先从数据意义、数据形式和数据关联性三个方面进行初始数据预处理,然后根据数据选择适合的模型进行训练.在传统机器学习中,Random Forest和XGBoost是两种常用的方法.RF模型通过其Bagging 过程,能够准确地评判“冗余”特征,而XGB模型在提高预测效果的同时,也囿于原创 2022-10-06 21:20:43 · 3392 阅读 · 0 评论 -
Savitzky-Golayfilter滤波论文-Using Smoothing Algorithms to Reduce Baseline Noise in Chromatography翻译
虽然大多数现代数据分析系统足以确定峰面积和峰高,但必须使用适当的积分参数才能进行良好的量化。结果将取决于:• 系统如何过滤或平均短期噪声• 数据收集频率• 用于处理数据的计算机算法短期噪声(也称为高频噪声,> 1 Hz) 对大多数信噪比(S/N) 测量具有重要意义。短期噪声是由多种因素造成的,包括探测器噪声、泵送系统的脉动和电子噪声集成系统。长期噪声(频率在0.1和 1 Hz 之间的信号变化)通常表示外部源(例如室温)或系统问题,并限制色谱峰的准确测量。原创 2022-09-13 21:53:12 · 346 阅读 · 0 评论 -
对xgboost进行可视化,解决中文乱码问题
将下载的exe安装,并在系统环境变量中添加graphviz变量名,地址为graphviz安装路径中的bin/dot.exe。在python中添加如下代码。原创 2022-08-09 17:00:42 · 814 阅读 · 0 评论 -
机器学习——数据预处理之归一化和标准化对比
首先明确,在机器学习中,标准化是更常用的手段,归一化的应用场景是有限的。我总结原因有两点:1、标准化更好保持了样本间距。当样本中有异常点时,归一化有可能将正常的样本“挤”到一起去。比如三个样本,某个特征的值为1,2,10000,假设10000这个值是异常值,用归一化的方法后,正常的1,2就会被“挤”到一起去。如果不幸的是1和2的分类标签还是相反的,那么,当我们用梯度下降来做分类模型训练时,模型会需要更长的时间收敛,因为将样本分开需要更大的努力!而标准化在这方面就做得很好,至少它不会将样本“挤到一起”。原创 2022-07-02 10:46:22 · 560 阅读 · 0 评论 -
机器学习——时间序列预测方法
目录传统时序建模自回归模型(Autoregressive model,简称AR)移动平均模型(Moving Average model,简称MA )自回归滑动平均模型(Autoregressive moving average model,简称ARMA)差分整合移动平均自回归模型(AutoregressiveIntegratedMovingAverage model,简称ARIMA)机器学习模型方法深度学习模型方法传统时序建模自回归模型(Autoregressi...原创 2022-05-05 21:59:33 · 7006 阅读 · 3 评论 -
机器学习——解决模型过拟合问题
前言本文是微信公众号深度学习初学者的一篇文章,为防止文章被和谐,特在此记录一下。公众号原文连接:机器学习基础:六种方法帮你解决模型过拟合问题 (qq.com)内容参考原文链接:https://mahithas.medium.com/overfitting-identify-and-resolve-df3e3fdd2860正文在机器学习中,过拟合(overfitting)会使模型的预测性能变差,通常发生在模型过于复杂的情况下,如参数过多等。本文对过拟合及其解决方法进行了归纳阐述。正如..转载 2022-04-29 16:59:50 · 268 阅读 · 0 评论 -
scikit-learn构建模型的万能模板
前言这篇文章是我在微信公众号深度学习初学者上面看到的,《机器学习入门必看|使用scikit-learn构建模型的万能模板》,感觉十分适合初学者。为防止文章连接失效,特在此记录文章主要内容。机器学习入门必看|使用scikit-learn构建模型的万能模板1.明确你需要解决的问题是什么类型,以及知道解决该类型问题所对应的算法。常见的问题类型只有三种:分类、回归、聚类。分类:如果你需要通过输入数据得到一个类别变量,那就是分类问题;分成两类就是二分类,分成两类以上就是多分类问题。比如,判别一个邮转载 2022-04-22 20:27:58 · 247 阅读 · 0 评论 -
机器学习——数据预处理——字符串数值特征提取(正则表达式)
1.对字符串类型的数据,提取里面的数字。我这里有一个dataframe格式的数据,每一列几乎都是数字+单位组成的一个字符串。在用机器学习进行分析的时候,由于每一列的数据单位都一样,可以忽略掉单位仅用数字进行分析即可。具体操作方法:使用正则表达式,匹配整数和小数,并返回一个列表。import refor col in d_object.columns: d_object[col] = d_object[col].map(lambda s:re.findall('-?[0-9]+\.原创 2022-04-17 10:37:42 · 1754 阅读 · 0 评论 -
机器学习——随机森林
回归预测1.划分数据集读取数据后,先划分出自变量x和因变量y(不做过多解释),然后进行训练集和测试集的划分(划分方法如下)。from sklearn.model_selection import train_test_splitX_train,X_test,y_train,y_test = train_test_split(x,y,test_size=0.2)#划分训练集和测试集,20%作为测试集,80%作为训练集2.模型训练与预测random_model = RandomFore原创 2022-04-15 16:54:28 · 1267 阅读 · 0 评论 -
机器学习——特征工程(实战)
onehot编码——类别字段机器学习中,对于一些类别字段,计算机是不能直接进行识别的。例如某个数据集中,动物类别分为cat、dog、turtle、fish等,可以通过onehot编码将其转换成计算机所能识别的数字。 pet cat dog turtle fish cat cat dog turtle fish 1 0 0 0 0 1 0 0 0 0 1 0 0 0原创 2022-04-15 16:27:44 · 1366 阅读 · 0 评论 -
关键词提取——TextRank算法总结
参考:TextRank算法介绍及实现_Asia-Lee的博客-CSDN博客_textrank原创 2022-04-08 20:46:32 · 530 阅读 · 0 评论 -
Python将字符串str格式的数据转换成datetime格式数据(为时序预测做准备)
1.导入数据,并查看初始时时间数据的格式和类型data = pd.read_csv('1.csv',encoding='gb2312')time = data["时间"]print(type(time[0])) #查看时间数据的格式类型print(time)2.str转datetime数据虽然为str类型,但是有一定的模板格式——"年-月-日-小时:分钟:秒.毫秒"data['date'] = pd.to_datetime(data['时间'], format='%Y-%m-原创 2022-04-08 10:21:07 · 16468 阅读 · 1 评论 -
机器学习——特征选择(降维)PCA和MDA
实际的分类问题和回归问题中,都有可能遇到多达50个或100个(甚至更多)的特征问题。对于分类问题来说,特征若为二值变量,我们通常认为其中的任何一个特征对于实现正确的分类都有它自己的贡献。但是,有理由怀疑这些特征之间是否存在着相关性,即里面是否存在着某种信息的冗余。回归问题也同样存在特征冗余的情况。本篇博客重点讨论回归问题中特征选择的情况。一、成分分析一种处理过多维数的方法是采用组合特征的方法来降维。对几个特征作线性组合是一种特别具有吸引力的方法,因为线性组合容易计算,并且能够进行解析分析。从本质原创 2022-04-02 14:38:04 · 3023 阅读 · 0 评论 -
机器学习——数据集预处理(数据查看和空值处理)
前言目的:本数据集是为了分析炉丝功率和炉膛温度以及样品盒内部温度之间的关系,分析温场的分布等。来源:本数据集的来源是实验获得的数据。特点:特征维度高,数据量大。数据集查看1.查看数据集的基本信息(列名、行数、数据类型等)import pandas as pddata = pd.read_csv('数据集.csv') #替换自己文件实际位置info = data.info()print(info)2.显示前5行数据head = data.head()pr原创 2022-03-31 15:58:28 · 4783 阅读 · 0 评论 -
重要的python库
一、Numpy(Numerical Python的简称)是python科学计算的基础包。 提供了以下功能: 1.快速高效的多为数组对象ndarray 2.用于对数组执行元素级计算以及直接对数组执行数学运算的函数 3.用于读写硬盘上基于数组的数据集的工具 4.线性代数运算、傅里叶变换,以及随机数生成 5.用于将C、C++、Fortran代码集成到python的工具除了为python提供快速的数组...原创 2021-09-22 20:58:28 · 171 阅读 · 0 评论 -
机器学习(三)——KNN算法
K-近邻算法采用测量不同特征之间的距离方法进行分类使用的距离计算算法是欧几里得算法,可以衡量多维空间中各个点之间的绝对距离。dist(X,Y)=import sklearn.datasets as datasetsfrom sklearn.neighbors import KNeighborsClassifierfrom sklearn.model_selection import train_test_split#1.捕获鸢尾花数据iris = datasets.load_iris原创 2021-09-14 18:26:00 · 478 阅读 · 0 评论 -
机器学习(二)——机器学习基础知识
一、数据类型可以分为:离散性数据:无规律的连续性数据:有规律的二、机器学习算法分类:分类问题:目标数据为离散型数据回归问题:目标数据为连续性数据三、机器学习开发流程:1.数据采集2.分析数据所对应要解决需求或者问题是什么?(回归或分类)3.数据的基本处理: 数据清洗 合并 级联等4.特征工程对特征进行处理 特征抽取 特征预处理 降维5.选择合适的模型...原创 2021-09-14 18:12:11 · 88 阅读 · 0 评论 -
机器学习(一)——特征工程
1.文字数字化from sklearn.feature_extraction.text import CountVectorizervector = CountVectorizer()res = vector.fit_transform(['life is short,i love python','life is too long,i hate python'])print(res.toarray())2.特征选择——过滤式方法from sklearn.feature_selecti原创 2021-09-14 18:06:46 · 154 阅读 · 0 评论