机器学习
文章平均质量分 95
Hayden112
做最好的自己!
展开
-
Kmeans&DBSCAN
KmeansK-means定义均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)原创 2021-05-11 11:56:16 · 536 阅读 · 0 评论 -
LightGBM
文章目录LightGBMLigthGBM与XGBoost异同点LightGBM训练快和内存消耗小的原因LGBMClassifier参数泰坦尼克号乘客生存率分析模型训练特征重要性混淆矩阵交叉验证TopN网格搜索最佳参数Mnist 手写数字识别多分类评估LightGBMLigthGBM是boosting集合模型中的新进成员,由微软提供,它和XGBoost一样是对GBDT的高效实现,原理上它和GBDT及XGBoost类似,都采用损失函数的负梯度作为当前决策树的残差近似值,去拟合新的决策树。LigthGBM与原创 2021-03-24 18:00:08 · 910 阅读 · 5 评论 -
XGBoost
文章目录XGBoostXGBoost与GBDT异同点XGBoost公式推导XGBClassifier参数泰坦尼克号乘客生存率分析模型训练特征重要性混淆矩阵交叉验证TopN网格搜索最佳参数查看特征的正负样本分布XGBoost网络实例XGBoostXGBoost是陈天奇等人开发的一个开源机器学习项目,高效地实现了GBDT算法并进行了算法和工程上的许多改进,被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。说到XGBoost,不得不提GBDT(Gradient Boosting Dec原创 2021-03-17 18:29:52 · 807 阅读 · 0 评论 -
Random Forest
文章目录随机森林基本概念数据的随机选取特征的随机选取RandomForestClassifier参数RandomForestClassifier属性混淆矩阵交叉验证网格搜索最佳参数查看特征的正负样本分布随机森林对决策树和集成学习有一定了解的基础上,再进一步理解随机森林采取的策略:样本数据、特征进行采样,训练的多棵决策树进行集成。基本概念来自百度百科根据下列算法而建造每棵树用N来表示训练用例(样本)的个数,M表示特征数目。输入特征数目m,用于确定决策树上一个节点的决策结果;其中m应远小于M。原创 2021-03-17 18:25:11 · 399 阅读 · 0 评论 -
Python去极值方法
文章目录MAD3σ法百分位法import numpy as npimport pandas as pdimport matplotlib.pyplot as plt# 构造测试数据mean = 0.6sigma = 1num = 3500np.random.seed(0)factor_data = np.random.normal(mean, sigma, num)factor_data = pd.Series(data=factor_data)factor_data.index =原创 2021-01-11 16:18:52 · 6306 阅读 · 0 评论 -
argparse、glob、findall
1、argparse从 sys.argv 解析参数博客园:argparse引用博客园import argparsedef parse_args(): parse = argparse.ArgumentParser() parse.add_argument('--arg1',type=str,default='test') parse.add_argument('--arg2',type=str) args,_ = parse.parse_known_args()原创 2020-11-03 20:07:10 · 124 阅读 · 0 评论 -
argv、lambda、filter、map、reduce
sys.argvSys.argv[ ]其实就是一个列表,里边的项为用户输入的参数,关键就是要明白这参数是从程序外部输入的,而非代码本身的什么地方,要想看到它的效果就应该将程序保存了,从外部来运行程序并给出参数。输入:test.py what输出:[‘test.py’,‘what’]CSDN: sys.argvlambda博客园: lambdafilterfilter(function, iterable)菜鸟教程mapmap(function, iterable, …)菜鸟教程r原创 2020-10-30 18:30:59 · 187 阅读 · 0 评论 -
混淆矩阵、召回率、精确率、正确率、F1、真阳性率、假阳性率、ROC、AUC
ConfusionMatrix:Confusion Matrix:ConfusionMatrix: 真实 1 0 预测 1 TP(命中) FP(虚报) 0 FN(漏报) TN(正确拒绝) 召回率Recall=TPTP+FNRecall = \dfra原创 2020-10-21 19:25:59 · 3267 阅读 · 0 评论 -
孤立森林探究
import numpy as npimport pandas as pdimport seaborn as snsfrom sklearn.ensemble import IsolationForest一维特征孤立森林plt.figure(figsize=(8,6))a1 = 5*np.random.rand(200) + 25a2 = 10*np.random.rand(200) + 75plt.hist(a1)plt.hist(a2)plt.show();clf_isof原创 2020-10-16 18:03:59 · 190 阅读 · 0 评论