机器学习
文章平均质量分 75
x详细记录学习机器学习过程中的详细知识点包括推导、代码等内容。
优惠券已抵扣
余额抵扣
还需支付
¥299.90
¥399.90
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
安替-AnTi
研究生在读
展开
-
机器学习类比赛中经常用到的一些函数和知识点
或者是经过数据探索分析(EDA)之后,发现该特征下,label的表现差异比较大(如果特征是随机数的时候,label理论上差异是最小的),一个具有良好依据的特征解释,是特征有效的根本。这是一种快速画出一个树状图,通过树状图我们在图上画一条横线,此时我们能对列进行分类,可以看到当一列中有缺失值时,基本会单独一类,然后无缺失值的列分为一类,从而形象的观察出是否有缺失值。这是一种将缺失值可视化的方法,可以看到顶上为数据集中的列,当每一列中有缺失值时就会出现白色的条纹,既可以直观的看到缺失值,也能观察其位置。原创 2019-07-01 20:52:49 · 6056 阅读 · 0 评论 -
聚类算法之K-means算法详解
聚类算法:就是把距离作为特征,通过自下而上的迭代方式(距离对比),快速地把一群样本分成几个类别的过程。更严谨,专业一些的说法是:将相似的对象归到同一个簇中,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起,不同数据尽量分离。很显然,聚类是一种无监督学习。对于有标签的数据,我们进行有监督学习,常见的分类任务就是监督学习;而对于无标签的数据,我们希望发现无标签的数据中的潜在信息,这就是无监督学习。原创 2023-02-21 16:10:27 · 612 阅读 · 0 评论 -
机器学习聚类算法---K-Means算法
而,一旦算法有效,那么就会对选举结果产生非常大的影响,甚至,直接决定了最后的总统归属。可见,聚类算法是一个非常了不起的算法。下面,我们就正式开始今天的新算法,K-means聚类算法。原创 2024-07-12 16:08:24 · 329 阅读 · 0 评论 -
Kaggle赛题总结:Enefit - Predict Energy Behavior of Prosumers
竞赛旨在解决能源不平衡的问题,即预计使用的能源与实际使用或产生的能源不符。自发自用者是既消耗又产生能源的个体,他们在造成能源不平衡方面起到了重要作用。尽管他们只占所有能源消费者的一小部分,但他们不可预测的能源使用行为给能源公司带来了物流和财务问题。如果不加以解决,可能会导致运营成本增加、电网不稳定以及能源资源的低效利用。如果这个问题得到有效解决,将显著降低不平衡成本,提高电网的可靠性,并使自发自用者更高效和可持续地融入能源系统中。原创 2024-05-14 09:21:49 · 231 阅读 · 1 评论 -
solar-features时间序列任务完整数据处理&预测流程
文章目录引言Read base DataRead and Preprocess External Datasetsholiday_path:Calendar.csv,日期相关数据izmir_tempizmir_humizmir_windizmir_meteostatproduction.csv:能源产出Feature EngineeringMerge Features to Main DFModellingparams参数介绍catboost参数介绍Feature ImportanceStage 1 Mod原创 2024-05-14 09:12:51 · 109 阅读 · 0 评论 -
spark分布式预测和保存过程中遇到的问题记录
通过上述配置,使得可以在内网jupyter环境下完成对江苏省30w+台区,三个月数据的预测和保存。大大缩短了时间,提高了处理效率。原创 2024-05-09 22:19:15 · 148 阅读 · 1 评论 -
三次样条函数插值(Cubic spline function interpolation)
已知部分离散的数据,但不知道满足这些数据的函数表达式,插值(和拟合)都是为了找到对应的函数表达式。区别在于,插值函数能够穿过已知点,拟合只求函数图形神似而不求穿过已知点。原创 2024-02-22 09:14:45 · 130 阅读 · 0 评论 -
sklearn模型指标和特征贡献度查看
r2_score 是一种用于衡量回归模型性能的统计指标,也被称为决定系数。这个指标表示模型对数据的拟合程度。计算总平方和 (Total Sum of Squares, TSS): 这是真实值与其平均值的差的平方和。计算残差平方和 (Residual Sum of Squares, RSS): 这是真实值与预测值的差的平方和。计算 R² 分数: R² 分数是 1 减去 RSS 与 TSS 的比值。R21−RSSTSSR21−TSSRSS其中,yiy_iy。原创 2024-02-05 15:10:42 · 785 阅读 · 0 评论 -
遗传算法 (Genetic Algorithm, GA) 详解与实现
选择的基准就是个体的适应度。如果交叉发生,则对child1,child2,parent1,parent2进行适应度比较后,保留较好的进入新种群,也可以都进入新种群,具体怎么做没有标准,可以根据具体问题自行选择。初代种群产生之后,按照适者生存和优胜劣汰的原理,逐代(generation)演化产生出越来越好的近似解,在每一代,根据问题域中个体的适应度(fitness)大小选择个体,幵借助于自然遗传学的遗传算子(genetic operators)进行组合交叉和变异,产生出代表新的解集的种群。原创 2024-01-11 15:08:40 · 661 阅读 · 0 评论 -
粒子群算法Particle Swarm Optimization超详细解析+代码实例讲解
粒子群算法,也称粒子群优化算法或鸟群觅食算法(Particle Swarm Optimization),缩写为 PSO, 是近年来由J. Kennedy和R. C. Eberhart等开发的一种新的进化算法(Evolutionary Algorithm - EA)。原创 2024-01-11 11:27:35 · 531 阅读 · 0 评论 -
pandas中date_range生成指定日期
start:string或datetime-like,默认值是None,表示日期的起点。end:string或datetime-like,默认值是None,表示日期的终点。periods:integer或None,默认值是None,表示你要从这个函数产生多少个日期索引值;如果是None的话,那么start和end必须不能为None。freq:string或DateOffset,默认值是’D’,表示以自然日为单位,这个参数用来指定计时单位,比如’5H’表示每隔5个小时计算一次。原创 2023-12-18 13:55:48 · 481 阅读 · 0 评论 -
滑动窗口详解
为了提升数据的准确性,将某个点的取值扩大到包含这个点的一段区间,用区间来进行判断,这个区间就是窗口。移动窗口就是窗口向一端滑行,默认是从右往左,每次滑行并不是区间整块的滑行,而是一个单位一个单位的滑行。index 0,1 为NaN,是因为它们前面都不够3个数,等到index2 的时候,它的值是怎么算的呢,就是(index0+index1+index2 )/3。具体来说,rowsBetween(start, end) 中的 start 和 end 参数决定了窗口函数在每一行上计算的数据的范围。原创 2023-11-09 17:35:26 · 297 阅读 · 0 评论 -
Windows11搭建kafka-python环境
Kafka是一个分布式的基于发布/订阅模式的消息队列,主要用于大数据实时处理领域。发布/订阅:消息的发布者不会讲消息直接发送给特定的订阅者,而是将发布的消息分为不同的类别,订阅者只接收感兴趣的消息。原创 2023-10-27 16:23:46 · 662 阅读 · 0 评论 -
windows本地搭建mmlspark分布式机器平台流程
将com.microsoft.ml.spark_mmlspark_2.12-1.0.0-rc3-49-659b7743-SNAPSHOT.jar进行解压,将里面的mmlspark整个目录放置到python的site-packages目录下,这样就离线安装好了python的mmlspark第三方包。主要的搭建思路和下载软件各个版本是经过了不断搜索尝试和复现google colab的环境才成功的,网上针对此类环境搭建的博客少之又少,遂记录于此,希望对后人有所帮助。需要配置环境,具体的坑有两个。原创 2023-10-23 14:18:38 · 1153 阅读 · 0 评论 -
pandas数据的异常值判断、可视化以及异常值的处理
从结果图中,我们可以看到,上下两条直线就是正常值的上下限,下面那条线下面没有任何东西,代表没有小于下限的异常值,上面那条线上有许多⭕,代表着有许多超出上限的异常值。对比这两种方法,从结果上来看,差距不大,相对而言,matplotlib包中的箱线图使用的是第二种方式进行异常值分析。接着上面的继续,上面我们提供了两种方法进行异常值的判断,接下来我们使用python中matplotlib的箱线图进行展示。quantile(q=0.25)和quantile(q=0.75) 分别是取下四中位数和上四中位数的值。原创 2023-10-08 14:34:57 · 500 阅读 · 0 评论 -
在 Python 中按多个属性对对象列表进行排序
这篇文章将讨论如何在 Python 中按多个属性对对象列表进行排序。原创 2023-10-08 09:24:32 · 313 阅读 · 0 评论 -
pandas从时间序列中判断是一周的第几天或星期几
【代码】pandas从时间序列中判断是一周的第几天或星期几。原创 2023-09-11 21:36:24 · 475 阅读 · 0 评论 -
回归预测常见评估指标R2_Score能否为负数
R2用于比较回归模型的预测误差与简单的Y=样本点平均值的误差。R21−SSRegressionSSTotalR21−SSTotalSSRegressionSSRegressionSSRegression表示的是函数拟合得到的回归模型的预测值与真实值的误差的平方和可以看下面这张图片,这里的黑色曲线就是通过数据拟合出来的一条回归曲线,上面计算的SS_Regression就是蓝色线(真实值)与黑色线(回归预测值)之间的误差。原创 2023-08-28 22:51:01 · 917 阅读 · 0 评论 -
datetime把日/月/年的时间数据格式转化成年/月/日
你需要注意的是,在使用 datetime.strptime 和 datetime.strftime 时,你需要提供一个格式字符串来指定输入字符串或输出字符串的格式。在上面的例子中,我们使用了 %d、%m 和 %Y 来指定日、月和年的位置。如果你的需求是在pandas中批量转换时间,我的思路是每行读取时间列,转换,保存为list中,然后新的一列赋值为list中的内容,这样可以实现批量转换。然后,我们使用 datetime.strftime 将日期对象转化为年/月/日格式的字符串。在上面的代码中,我们先使用。原创 2023-08-28 22:37:17 · 1227 阅读 · 0 评论 -
autoTs时间序列模型介绍
AutoTS 是 Python 的时间序列包,旨在快速部署大规模的高精度预测。在auto JS中,有几十个预测模型中可用sklearn的风格 .fit()和.predict()。这些包括朴素、统计、机器学习和深度学习模型。此外,有超过30的时间序列的特定变换中可用sklearn的风格.fit(),.transform()和.inverse_transform()。所有这些都直接在 Pandas Dataframes 上运行,无需转换为专有对象。所有模型都支持预测多变量。原创 2023-08-14 11:03:46 · 395 阅读 · 0 评论 -
回归模型常见评估指标mae,mse,rmse
【代码】回归模型常见评估指标mae,mse,rmse。原创 2023-08-13 20:40:42 · 628 阅读 · 0 评论 -
Pandas将数据转化为one-hot形式
Pclass原来的取值是1,2,3,转换后变成了Pclass_1,Pclass_2,Pclass_3三个one-hot形式的列。原创 2023-07-31 22:52:12 · 342 阅读 · 0 评论 -
pandas中DataFrame删除数据
详情参阅官网https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html。level是指等级,针对多重索引的情况,inplaces是否替换原来的dataframe。多重索引的情况,因为版本问题,有些版本需要把里面的codes改成labels。labels是指要删除的标签,一个或者是列表形式的多个,删除指定索引的行,这里没有axis参数,就是。axis是指处哪一个轴。原创 2023-07-14 09:04:50 · 340 阅读 · 0 评论 -
# Concat、Append合并的使用介绍
join:合并的时候索引的对齐方式,默认是outer join,也可以是inner join。批量合并相同格式的Excel、给DataFrame添加行、给DataFrame添加列。objs:一个列表,内容可以是DataFrame或者Series,可以混合。append只有按行合并,没有按列合并,相当于concat按行的简写形式。axis:默认是0代表按行合并,如果等于1代表按列合并。ignore_index:是否忽略掉原来的数据索引。ignore_index:是否忽略掉原来的数据索引。原创 2023-07-13 14:51:42 · 345 阅读 · 0 评论 -
python多维数据可视化
多维度(3维以上)数据的可视化,用常规的方法不太好实现。本文介绍几种用Python实现的将多维数据展示在二维平面中的方法。原创 2023-07-01 19:43:52 · 977 阅读 · 0 评论 -
pandas.dataFrame按条件修改列的值
np.where(condition, x, y):满足条件(condition),输出x,不满足输出y。如果column1符合A或B条件,对应的’plus’列删除的前7个字段。这个时候就运用if elif。原创 2023-06-16 10:10:11 · 1735 阅读 · 0 评论 -
sklearn保存训练好的模型为pkl文件,方便后期调用
【代码】sklearn保存训练好的模型为pkl文件,方便后期调用。原创 2023-06-06 15:43:28 · 422 阅读 · 1 评论 -
pandas.dataFrame中query和eval用法
python数据科学生态环境的强大力量在Numpy和Pandas的基础之上,并通过直观的语法将基本操作转化为c语言:在Numpy里是向量化/广播运算,在pandas里是分组型的运算。虽然这些抽象功能可以简洁高效的解决很多问题,但是他们经常需要创建临时对象,这样会占用很大的计算时间和内存。Pandas为了解决性能问题,引入了eval()和query()函数,他们可以让用户直接运行C语言速度的操作,不需要费力的配置中间数组,它们都依赖于Numexpr程序包。原创 2023-05-26 15:36:01 · 1123 阅读 · 1 评论 -
如何在pandas中删除索引
现在我们可以通过使用reset_index()方法删除索引列。它将删除索引值,并将默认值设置为0至n值。:为数据集设置索引列。最初的情节确实,变化是明显的。**例子:**删除索引列。原创 2023-05-24 09:10:12 · 1099 阅读 · 0 评论 -
时间序列中常用的shift函数进行数据偏移
近期在做时间序列相关工作时,需要使用数据偏移,在 Pandas 中使用 shift 函数实现。所有字段向下偏移一行。所有字段向上偏移一行。所有字段向右偏移一列。所有字段向左偏移一列。原创 2023-05-16 17:29:26 · 249 阅读 · 0 评论 -
使用tsfresh工具对时序数据进行特征提取
当我们在对时序数据进行特征提取时,常常用到的方法包括滑动平均,指数平滑等等,tsfresh可以为我们提供几十至几百个统计特征,包括时序信号的能量等等,只需要一次操作即可。以下内容来自tsfresh的文档,先通过一个实例来认识一下这个快速有效的工具。原创 2023-04-24 20:58:25 · 546 阅读 · 0 评论 -
如何在DataFrame中根据条件替换列中的值
语法: df[“column_name”] = np.where(df[“column_name”]==”value”, value_if_true, value_if_false)示例: 这个numpy.where()函数应该写上条件,如果条件为真,后面是值,如果条件为假,则是一个值。现在,我们要把性别栏中的所有 “女性 “改为0,”男性 “改为1。如果我们可以访问它,我们也可以操作它的值,是的!Pandas的掩蔽函数是为了用一个条件替换任何行或列的值。函数,我们可以访问一个列并通过一个条件改变它的值。原创 2023-03-31 16:31:58 · 3832 阅读 · 0 评论 -
Pandas读取某列、某行数据——loc、iloc用法总结
iloc和loc。loc:通过行、列的名称或标签来索引iloc:通过行、列的索引位置来寻找数据首先,我们先创建一个Dataframe,生成数据,用于下面的演示A B C D E。原创 2023-03-28 15:04:31 · 588 阅读 · 0 评论 -
DataFrame的创建方式和基本操作
data表示要传入的数据 ,包括 ndarray,series,map,lists,dict,constant和另一个DataFrameindex:索引,格式[‘x1’,‘x2’]columns列索引 ,格式[‘x1’,‘x2’]dtype:每列的类型copy: 从input输入中拷贝数据。默认是false,不拷贝。原创 2023-03-27 11:11:38 · 869 阅读 · 0 评论 -
2019年华为算法精英大赛--用户人口属性预测组比赛复盘
算法精英大赛比赛有两个赛题,赛事题目如下:赛题一:账号用户人口属性预测尝试解决的问题:对于手机设备厂商,获取当前手机用户的人口属性信息(demographics)非常困难,当前华为手机3.5亿用户中,大概只有5000万用户的性别和年龄信息,如何基于用户的手机及使用偏好准确地预测其人口属性信息是提升个性化体验、构建精准用户画像的基础赛题二:CTR预测任务描述:基于用户对广告任务的历史行为和广告任务属性,选择合适的算法预测用户在特定上下文下对某个广告任务的点击概率。原创 2020-05-18 23:54:19 · 2329 阅读 · 8 评论 -
sklearn模块常用内容解析笔记
回归模型的性能的评价指标主要有:RMSE(平方根误差)、MAE(平均绝对误差)、MSE(平均平方误差)、R2_score。R2_score = 1,样本中预测值和真实值完全相等,没有任何误差,表示回归分析中自变量对因变量的解释越好。R^2 score,即决定系数,反映因变量的全部变异能通过回归关系被自变量解释的比例。不能完全反映模型预测能力的高低,某个实际观测的自变量取值范围很窄,但此时所建模型的。即估计值与平均值的误差,反映自变量与因变量之间的相关程度的偏差平方和。n是样本的个数,p是变量的个数。原创 2023-02-22 21:37:06 · 446 阅读 · 0 评论 -
如何判断机器学习数据集是否是线性的
首先,线性和非线性函数之间的区别:左边是线性函数,右边是非线性函数。线性函数:可以简单定义为始终遵循以下原则的函数:输入/输出=常数。线性方程总是1次多项式(例如x+2y+3=0)。在二维情况下,它们总是形成直线;在其他维度中,它们也可以形成平面、点或超平面。它们的“形状”总是笔直的,没有任何曲线。这就是为什么我们叫它们线性方程。非线性函数:即函数图像不是一条直线的函数。高阶多项式是非线性的。三角函数(如sin或cos)是非线性的。平方根是非线性的。我们如何找到机器学习数据集是否是线性呢?原创 2023-02-22 21:14:02 · 1043 阅读 · 0 评论 -
HMM隐马尔科夫模型
隐马尔科夫(Hidden Markov Model,以下简称HMM)是比较经典的机器学习模型模型了,它在语言识别,自然语言处理,模式识别等领域得到广泛的应用,当然,随着目前深度学习的崛起,尤其是RNN、LSTM等神经网络模型的火热,HMM的地位有所下降。但是作为一个经典的模型,学习HMM的模型和对应算法,对我们解决问题建模的能力提高以及算法思路的拓展还是很好的。什么样的问题需要HMM模型首先我们来看看什么样的问题可以用HMM模型。使用HMM模型时我们的问题一般有这两个特征:1)我们的问题是基于序列的,原创 2020-08-20 17:50:54 · 423 阅读 · 0 评论 -
通俗理解LDA主题模型
理解LDA,可以分为如下5个步骤:一个函数:gamma函数四个分布:二项分布、多项分布、beta分布、Dirichlet分布两个模型:PLSA、LDA一个采样:Gibbs采样本文按照上述五个步骤来阐述,希望读者看完本文后,能对LDA有个尽量清晰完整的理解。gamma函数整体把握LDA关于LDA·有两种含义,一种是线性判别分析(Liner Discriminant Analysis),一种是概率主题模型:隐含狄利克雷分布(Latent Dirichlet Allocation,简称LDA)原创 2020-08-18 22:26:35 · 1772 阅读 · 1 评论 -
机器学习分类算法(九)-LightGBM
之前在讲xgboost的时候,详细介绍了陈天奇等人于2014年发布的XGBoost的内在原理,同时阐述了其特有的几大优点。然而时代变化之迅速,新技术如春笋般应运而生,与日俱进。继xgboost之后,2016年微软进一步发布了GBST的另一个实现:lightgbm。据悉,与xgboost相比,在相同的运行时间下能够得到更好的预测性能。同时,在multi-class、classification、click prediction和排序(lerning to rank)都有很好的效果。本文将基于lightgbm的原创 2020-08-04 15:28:25 · 2330 阅读 · 0 评论