![](https://img-blog.csdnimg.cn/20201227135443575.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
ᕦ 机器学习 ᕤ
友利奈绪赛高
萌新待开发
该还的还是要还的,记住学无止尽,闲是不可能闲下来的。
展开
-
AI 生成二次元女孩,免费云端部署(仅需5分钟)
AI 生成二次元女孩,免费云端部署(仅需5分钟)原创 2023-02-21 19:00:34 · 17185 阅读 · 7 评论 -
sns jointplot 和 子图
【代码】sns jointplot 和 子图。原创 2023-01-05 21:51:39 · 1109 阅读 · 0 评论 -
Accept-Reject sampling Method (并非近似贝叶斯计算采样)
The Accept-Reject method is a classical sampling method which allows one to sample from a distribution which is difficult or impossible to simulate by an inverse transformation. Instead, draws are taken from an instrumental density and accepted with a care翻译 2022-11-25 15:03:57 · 369 阅读 · 0 评论 -
加权协方差矩阵(weighted covariance matrix)
国内完全没一个有用的,这里给出了加权协方差矩阵计算函数。用的时候可以将权重先归一化。原创 2022-11-15 17:02:30 · 1480 阅读 · 1 评论 -
贝叶斯理论框架综述
对高效全局优化(Efficient Global Optimization,EGO)有了更全面的理解,该优化方法与贝叶斯推理有着密切的联系。文章从所应用的数据类型(离散和连续)出发,回顾了贝叶斯方法在离散空间和在连续空间中具有代表性的应用方法。在离散空间中,贝叶斯往往依赖于频率统计和先验条件的假设,文章简要描述了离散条件下贝叶斯推理的应用场景和先置条件。在对数据类型为连续型的背景中,贝叶斯推理方法更依赖于对连续分布的建立,文章侧重的探讨了贝叶斯似然函数是否可计算的两种情况中的推理原理,以及应用背景和区别。.原创 2022-08-26 16:02:37 · 3524 阅读 · 0 评论 -
[Bayesian Optimization]Kriging Believer and Constant Liar
KB 和 CL 都是基于 q-EI 方法的改进。是近似的平行策略。如有不对请指出!普通的q-EI:记黑盒函数每轮迭代中选择q个点,并计算每个点的真实响应值,即KB:记当前已知数据建立的代理模型每轮 迭代中选择q个点,其中的每个点不再是真实响应值,而是代理模型的值,即CL:记已知点,当前常数为L,其中L可以是、、每轮 迭代中选择q个点,其中的每个点不再是真实响应值,而是代理模型的值,即...原创 2022-03-21 20:04:27 · 486 阅读 · 0 评论 -
深高斯过程(Deep Gaussian processes)
下图可以看到:标准的高斯过程无法对非平稳一维函数(修正的Xiong函数)近似。该模型无法捕捉区域[0.4,1]的稳定性,并继续振荡。这种非平稳函数现实中非常常见:在设计优化中,由于物理特性的突然变化,目标函数或约束可能会在设计空间的一个区域到另一个区域之间以不同程度的规律性变化。具体而言,在航空航天工程中,设计过程中涉及的不同学科可能会导致非平稳过程。例如,在空气动力学中,计算流体动力学(CFD)问题通常具有不同的特定流型,这是由于分离区、循环流、涡爆发、从亚音速到跨音速、超音速和高超音速流型的过渡原创 2022-03-12 15:10:07 · 1052 阅读 · 0 评论 -
层次克里金模型(Hierarchical kriging)
包含高保真模型和低保真模型原创 2022-03-07 15:09:51 · 902 阅读 · 1 评论 -
Expectation Propagation (EP)
Expectation Propagation (EP) 是一个迭代算法,其中使用一个密度概率(包含具体参数组)来近似目标概率密度。类似于重要性抽样。EP属于一组消息传递算法,该算法使用一组局部推断推断目标密度。首先我们假设目标概率密度有一些便利的因式分解:在贝叶斯推理中,目标概率密度通常是后验概率,举个例子其中可以将因子分配给先验,并将因子从1到K当作似然函数(将数据划分成k个部分,且每一个都是独立于给定的模型参数)。消息传递算法的工作原理是用概率密度迭代逼近目标概率密度:并且..原创 2022-03-02 15:47:38 · 1551 阅读 · 0 评论 -
scipy.stats multivariate_normal 与 numpy.normal 区别
multivariate_normal 是联合高斯分布 n*m的数据,均值是m*1,协方差是m*m multivariate_normal.pdf 是 1*1normal 是独立的高斯分布,即每列为独立的一元高斯分布。n*m的数据,均值是m*1,方差是m*1, normal.pdf(x,mu,var)是m*1,每个元素是该列的概率Pandasn*m的数据,均值是m*1,方差是m*m,Numpy...原创 2022-03-01 16:54:23 · 1878 阅读 · 0 评论 -
Sample average approximation(SAA)
样本平均近似(SAA)方法是一种利用蒙特卡罗模拟求解随机优化问题的方法。在这种技术中,随机问题的预期目标函数由随机样本的样本平均估计来近似。由此产生的样本平均逼近问题,然后解决确定性优化技术。对不同的样本重复该过程,以获得候选解,以及对其最优性差距的统计估计。...原创 2022-02-27 17:33:03 · 2788 阅读 · 5 评论 -
Kriging(克里金模型)介绍
克里金模型最早出现在地质学文献中,用来估计有价值矿物的分布。萨克斯·艾尔1989年将这种方法应用于近似的计算机实验。此后,克里格法被广泛研究并应用于工程领域。克里格模型也称为高斯过程模型,因为它将目标函数建模为高斯过程的实现。定义...原创 2022-02-24 12:26:17 · 8695 阅读 · 5 评论 -
超参数迁移学习
相关性:对于同一个ML模型,超参数调整 对于不同数据集具有相关性原创 2022-02-17 20:27:53 · 710 阅读 · 0 评论 -
贝叶斯优化包使用
from bayes_opt import BayesianOptimizationdef rf_cv(n_estimators, min_samples_split, max_features, max_depth): val = cross_val_score( RandomForestClassifier(n_estimators=int(n_estimators), min_samples_split=int(min_samples_split).原创 2022-01-08 21:30:44 · 379 阅读 · 0 评论 -
高斯过程、高斯过程回归、克里金模型
高斯过程:高斯过程回归:克里金模型:原创 2022-01-05 19:06:47 · 1998 阅读 · 4 评论 -
Gaussian process (高斯过程)
通俗解释:先想象一下高斯分布,例如二维中,它是一条钟型线。如果数据满足高斯分布,确实可以通过已知的数据点建立一条高斯分布线,来预测未知的点。那么高斯过程,只是将高斯分布的均值和方差定值变成了函数形式,它也是一直点来预测未知点,例如在二维空间:每个x点都有一个纵向的高斯分布,那么预测的每个未知点变成了一个高斯分布。最终高斯过程形成了数以千计的若干个预测线,即下方红色区域,不再是单纯的一条线了。公式:已知初始点 ,通过新点来更新高斯过程:...原创 2022-01-05 14:18:18 · 1653 阅读 · 0 评论 -
汤普森采样(Thompson sampling)
本文章为离散知识的整理,如有错误,请提出!先了解Beta分布,beta(a,b):这里只要记住:a>b,图像往右倾,高概率取得较大值;a<b,图像往左倾,高概率取得较低值。在可以应用到现实场景:K个老虎机,每个老虎机遵循着各自的获奖概率,即a=中将概率,假设为1;b=不中奖概率,假设为0。那么玩家肯定希望多中将,即1的概率高。那么在beta(a,b)中,a>b,中将概率高时,分布情况刚好是往右倾,取得1的概率更高;相反一样。因此beta刚好适用于这种情况。..原创 2021-12-31 14:01:11 · 1696 阅读 · 0 评论 -
python 循环进度条
for i in range(len(files)): print('\r当前进度:{:^3.0f}%'.format(((i + 1) / len(files) * 100)), end='')原创 2021-11-18 20:13:20 · 1048 阅读 · 0 评论 -
StackingCVRegressor的超参数命名
首先,现初始化:dtr = DecisionTreeRegressor()svr_RBF =SVR(kernel='rbf', gamma='auto')knr = KNeighborsRegressor()ridge =Ridge()lasso =Lasso()regression_models=(dtr,svr_RBF,knr,ridge,lasso)调用函数查看参数命名方法:stack = StackingCVRegressor(regressors=regressio原创 2021-11-09 15:30:34 · 796 阅读 · 0 评论 -
ABC-PMC (approximate bayesian computation Population Monte Carlo)
1.第一轮设置较大的阈值 从先验采样,在相似度在阈值内,共N个 使用估计观察集得到估计值, 计算N个相似度 最后会得到 得到新的分布 这是该轮的协方差2.第2到J轮每一轮 j从上一轮的分布中采样: 加入噪声 计算相似度 得到 设置分布 这是该轮的协方差...原创 2021-10-29 13:49:34 · 256 阅读 · 0 评论 -
pandas 替换部分数据
dataset['每股收益'] = dataset['每股收益'].str.replace('㈢','').astype("float")原创 2021-10-26 15:12:35 · 113 阅读 · 0 评论 -
FRE 和 随机森林 特征重要性
#使用ref进行特征选择from sklearn.linear_model import LinearRegression, Ridgefrom sklearn import svmfrom sklearn.feature_selection import RFElr = LinearRegression()rfe = RFE(lr, n_features_to_select=5)rfe.fit(train_X,label_1)print ("Features sorted by their.原创 2021-10-24 18:17:28 · 2591 阅读 · 0 评论 -
CDF 和 PDF 比较
PDF:概率密度函数(probability density function), 在数学中,连续型随机变量的概率密度函数(在不至于混淆时可以简称为密度函数)是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。 CDF : 累积分布函数 (cumulative distribution function),又叫分布函数,是概率密度函数的积分,能完整描述一个实随机变量X的概率分布。PDF:import randomimport mathimport numpy as npfr原创 2021-10-22 15:11:43 · 8516 阅读 · 0 评论 -
生成正态分布的点
import numpy as npfrom scipy.stats import normimport matplotlib.pyplot as pltdef norm_dist_prob(theta): y = norm.pdf(theta,loc=10,scale=5) return yx = np.arange(1,20,0.1)y = [norm_dist_prob(x[i]) for i in range(len(x))]plt.scatter(x,y)pl.原创 2021-10-21 15:54:42 · 212 阅读 · 0 评论 -
拒绝采样理解
对于的解释:从均匀分布中随机采样一个点,如果这个点在红色曲线下方,就接受它,如果在红色曲线和蓝色曲线中间,就拒绝这个点。当C*g(x)越接近q(x)时接受率越高,采样效率越高,因此有时他们差距比较大时,就会出现大部分的点都被拒绝,这样效率会非常低。越接近1,说明红蓝线越逼近,该点落入红线内概率很高即接受率变高;而u是0到1均匀分布采样的。表示接受,限制你要尽可能接近1(意味着该采样点x很可能在红色线内,),即尽可能逼近(保留),效率就越高,。...原创 2021-10-20 20:28:31 · 364 阅读 · 0 评论 -
sklearn.gaussian_process获取均值和方差
gp = GaussianProcessRegressor()gp.fit(new_data[feature], new_data["pIC50"])y_mean, y_cov = gp.predict(new_data[feature], return_cov=True)原创 2021-10-18 14:35:29 · 509 阅读 · 0 评论 -
最小二乘回归、岭回归、贝叶斯回归实现代码
import numpy as npimport matplotlib.pyplot as pltfrom matplotlib import animationfrom sklearn.preprocessing import PolynomialFeaturesfrom sklearn.pipeline import Pipelinedef trueY(X): return np.sin(X) * 0.4 +np.cos(X)**2 + (np.cos...原创 2021-10-10 18:56:42 · 710 阅读 · 0 评论 -
贝叶斯曲线拟合实现
贝叶斯预测分布公式:这里我们假设后验分布是高斯分布,那么其中方差和平均值公式为:import numpy as npimport matplotlib.pyplot as plt# Number of training pointsN = 200# Precision of targetsbeta = 8# Precision of prior weights distributionalpha = 0.00de...原创 2021-10-10 18:50:32 · 1094 阅读 · 0 评论 -
贝叶斯优化 -- 理解
调整超参数设置 -----> 假设超参数X与模型的损失函数有联系那么我们假设一组超参数, 模型评价(损失函数)定义为那么,我们最初的目标就是超参数调优,选择合适的超参数,使得模型跑出来的损失函数最小,即: (1)例如:1. Input:f: 就是那个所谓的黑盒子,即输入一组超参数,得到一个输出值。 X:是超参数搜索空间等。 D:表示一个由若干对数据组成的数据集,每一对数组表示为 (X,y),X是一组超参数,y表示该组超参数对应的结果。 S:是...原创 2021-09-28 16:03:48 · 227 阅读 · 0 评论 -
大数据技术在包括微波介质陶瓷在内的材料筛选上的应用综述
电介质是应用于现代电子的较为普遍的一类重要材料,器件的性能很大程度受电介质性质的影响,具有定制特性的新型电介质材料对于更高效、性能更好的电子设备以及小型化至关重要。因此,需要具有适用于不同行业的一系列应用的特性的新型介电材料。然而,已知介电常数的化合物数量目前约为几百个,这大大限制了设计工程师的选择。且一般使用密度泛函微扰理论作为一种快速有效地筛选材料介电常数和折射率的方法,因此计算代价高且已有信息量较少成为了主要问题。此外,互联网上MaterialspProject数据库开源信息项目,使用户能轻松访问材质原创 2021-09-20 15:00:25 · 294 阅读 · 0 评论 -
异方差性介绍
如在研究城镇居民收入与购买消费品的关系时,用表示第户的收入量,表示第户的购买量,购买回归模型为:在此模型中,随机项就具有不用的方差。因为在购买行为中,低收入的家庭购买行为的差异性比较小,大多购买生活必需品;高收入的家庭购买行为差异很大,高档消费品很多,他们的选择余地很大,这样购买物品所花费用的差异就较大。因而,用随机获取的样本数据建立回归模型,他的随机项就具有异方差性...原创 2021-09-08 18:28:54 · 461 阅读 · 0 评论 -
偏最小二乘回归(PLSR)
个人理解,有误请指出。原创 2021-09-06 16:06:40 · 779 阅读 · 0 评论 -
pandas 将一列数据划分成并横向拼接
import pandas as pddata = pd.read_excel("1.xlsx")dftotal = pd.DataFrame()d = 0for i in range(480): df = pd.DataFrame(data.loc[d:d+60]).reset_index(drop=True) d +=61 x = dftotal dftotal = pd.concat([x,df ], axis=1).reset_index(drop=Tr.原创 2021-09-02 16:04:36 · 564 阅读 · 0 评论 -
pandas 查找相似列名
dataset.filter(regex='label').columns结果:Index(['snl-sites-label_1', 'snl-sites-label_2', 'snl-sites-label_3', 'snl-sites-label_4', 'snl-sites-label_5', 'snl-sites-label_6', 'snl-sites-label_7', 'snl-sites-label_8', 'snl-sites-label_9', .原创 2021-08-30 16:18:33 · 364 阅读 · 0 评论 -
python 随机生成二维范围点
import matplotlib.pyplot as pltimport numpy as nplist1 = []for i in range(80): list1.append(np.random.uniform([5, 10]))list2 = []for i in range(10): list2.append(np.random.uniform([-5, 5]))list3 = []for i in range(10): list3.append(n.原创 2021-08-26 16:16:09 · 4071 阅读 · 3 评论 -
Locally Linear Embedding 实现代码
import numpy as npfrom sklearn.datasets import make_s_curveimport matplotlib.pyplot as pltfrom sklearn.manifold import LocallyLinearEmbeddingfrom mpl_toolkits.mplot3d import Axes3Dimport pandas as pddef make_swiss_roll(n_samples=100, noise=0.0, r.原创 2021-08-13 13:09:41 · 281 阅读 · 0 评论 -
python 矩阵运算
1.计算矩阵每个点与点之间的距离,返回距离矩阵def cal_pairwise_dist(x): '''计算pairwise 距离, x是matrix (a-b)^2 + (c-d)^2= a^2 + b^2 - 2*a*b + c^2 + d^2 - 2*c*d ''' x = np.array(x) sum_x = np.sum(np.square(x), 1) dist = np.add(np.add(-2 * np.dot(x, x.T), su原创 2021-08-13 10:58:48 · 329 阅读 · 0 评论 -
基于LLE的SMOTE方法
文章来自《Classification of Imbalanced Data by Using the SMOTE Algorithm andLocally Linear Embedding》主要思想:原始数据 为d维 通过LLE降维到 l维 ,为Y 在Y数据集中通过寻找一个r向量来确定合成点 最后将得到的新Y数据集通过LLE还原到d维合成点的方法:算法步骤:...原创 2021-08-12 16:36:23 · 113 阅读 · 0 评论 -
DPCluster 包正确安装
下载程序包 当前代码为python2,如果环境是py3的话,得将代码转化以下。使用以下代码: 2to3 -w distributions.py 在__init__.py中修改: from dpcluster import distributionsfrom dpcluster import algorithms原创 2021-08-09 11:15:19 · 124 阅读 · 0 评论 -
机器学习与材料计算的个人看法
机器学习,是指机器拥有人类一般的学习能力,拥有自我更新和适应并从堆积如山的数据中寻找出有用知识的能力。是计算机通过数学原理、逻辑关系、海量数据等有机结合的算法来模拟人类生活中学习的过程,最后得出模型对新的情境给出判断。机器学习可以通过较多编程语言实现,其中python以众多成熟应用库、易于编写等优势令人瞩目。对于python库:numpy、scipy用于处理数组、线性代数等操作的科学计算库;pandas库提供了高级工具用于进行数据分析;matplotlib为数据分析后进行的画图库;sklearn库是用于原创 2021-08-01 21:58:49 · 1219 阅读 · 0 评论