机器学习
天涯未抵
这个作者很懒,什么都没留下…
展开
-
哑编码的两种方法
1.使用pd的replace方法例如:使用replace方法将j将值替换’Fully Paid’为1,这种方法一般标签二值化的时候用df.loan_status.value_counts()#先查看该列的值的类别数目df.loan_status.replace(‘Fully Paid’,value=int(1),inplace=True)2.使用pd.Categorical().code...原创 2020-02-24 21:20:08 · 890 阅读 · 0 评论 -
AdaBoost scikit-learn相关参数
1.AdaBoostClassifierbase_estimator:弱分类器对象,默认为CART分类树DecisionTreeClassifier;algorithm:SAMME和SAMME.R;SAMME表示构建过程中使用样本集分类效果作为弱分类器的权重;SAMME.R使用对样本集分类的预测概率大小作为弱分类器的权重。由于SAMME.R使用了连续的概率度量值,所以一般迭代比SAMME快...原创 2020-02-18 20:32:07 · 484 阅读 · 1 评论 -
KNN scikit-learn相关参数
KNeighborsClassifier & KNeighborsRegressorweights:样本权重,可选参数: uniform(等权重)、distance(权重和距离成反比,越近影响越强);默认为uniform。n_neighbors:邻近数目,默认为5。algorithm:计算方式,默认为auto,可选参数: auto、ball_tree、kd_tree、brute;推荐...原创 2020-02-17 20:59:31 · 240 阅读 · 0 评论 -
Python多进程
文章目录Python多进程Multiprocessing使用简介-1Process多进程的几种方法LockPoolQueuePython—队列、生产者消费者模型Python多进程• 用multiprocessing替代Thread• multiprocessing库的出现很大程度上是为了弥补thread库因为GIL低效的缺陷。它完整的复制了一套thread所提供的接口方便迁移。唯一的不同就是...原创 2020-02-10 20:24:07 · 101 阅读 · 0 评论 -
GBDT scikit-learn相关参数
文章目录1.GradientBoostingClassifier2.GradientBoostingRegressor1.GradientBoostingClassifierloss:给定损失函数,可选对数似然函数deviance和指数损失函数exponential;默认为deviance;不建议修改。n_estimators :最大迭代次数,值过小可能会导致欠拟合,值过大可能会导致过拟合,...原创 2020-02-08 23:04:37 · 646 阅读 · 0 评论 -
机器学习(7)之支持向量机(SVM)
文章目录1 知识回顾1.1 梯度下降法1.2 拉格朗日乘子法1.2.1 对偶问题1.3 KKT条件1.3.1 KKT条件总结1.4 最优化问题的求解1.5 距离知识回顾1.6 感知器模型2 SVM2.1 线性可分SVM2.1.1 算法流程2.1.1 算法总结2.2 SVM的软间隔模型2.2.1 算法流程2.2.1 算法总结1 知识回顾1.1 梯度下降法导数:一个函数在某一点的导数描述了这个函...原创 2020-01-06 12:40:12 · 657 阅读 · 0 评论 -
机器学习(6)之聚类算法(k-means\Canopy\层次聚类\谱聚类)
文章目录1 聚类的定义1.1 距离公式(相似度)1.2 聚类的思想2 K-means算法2.1 K-means算法的思考2.2 总结3 二分K-Means算法4 K-Means++算法4.1 K-Means||算法5 Canopy算法5.1 应用场景6 Mini Batch K-Means算法7 层次聚类方法7.1 AGNES算法中簇间距离7.2 层次聚类优化算法8 密度聚类8.1 DBSCAN算...原创 2020-01-03 23:32:19 · 1460 阅读 · 0 评论 -
机器学习(5)之集成学习(RF\AdaBoost\GBDT)
文章目录1 集成学习的思想1.1 Bagging简介1.2 Boosting简介1.3 Stacking简介2 随机森林(Random Forest)2.1 算法流程2.2 Extra Tree2.3 TRTE2.4 Isolation Forest(IForest)2.5 总结3 AdaBoost3.1 算法原理3.2 算法的构建过程3.3 总结4 GBDT4.1 算法原理4.2 GBDT回归算...原创 2020-01-03 12:28:49 · 372 阅读 · 0 评论 -
机器学习(4)之决策树
文章目录1 比特化(Bits)2 信息熵2.1 信息量2.2 信息熵的意义2.3 条件熵3 决策树的概念3.1 决策树的构建3.2 决策树的特征属性3.3 决策树分割属性3.4 决策树量化纯度3.5 决策树的停止条件3.6 决策树算法效果的评估4 ID3算法5 C4.5算法6 CART算法7 分类树和回归树8 决策树的优化策略8.1 剪枝优化9 总结1 比特化(Bits)假设现在随机变量X...原创 2020-01-02 12:46:55 · 285 阅读 · 0 评论 -
机器学习(3)之KNN算法
文章目录算法原理算法步骤KNN三要素KNN算法实现方式KD Tree的构建KD tree查找最近邻算法原理K近邻(K-nearst neighbors, KNN)是一种基本的机器学习算法,所谓k近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。KNN在做回归和分类的主要区别在于最后做预测的时候的决策方式不同。KNN在分类预测时,一般采用多数表决法;而在做回归预...原创 2020-01-01 17:35:18 · 276 阅读 · 0 评论 -
机器学习(2)之回归算法
机器学习(2)之回归算法什么是回归算法线性回归似然函数/对数似然函数目标函数/损失函数常用的其他目标函数线性回归的过拟合Ridge回归(岭回归)LASSO回归Elasitc Net算法(弹性网络算法)模型效果判断机器学习调参梯度下降算法批量梯度下降算法(BGD)随机梯度下降算法(SGD)小批量梯度下降法(MBGD)什么是回归算法有监督算法解释变量(x)与观测值(因变量y)之间的关系最终结...原创 2019-12-31 11:52:53 · 471 阅读 · 0 评论 -
机器学习(1)之基本概念
机器学习(1)之基本概念机器学习的定义算法中的基本参数对算法的数据的常规描述机器学习分类有监督学习无监督学习半监督学习机器学习开发流程数据收集与存储数据预处理特征提取模型构建模型测试评估投入使用(模型部署与整合)迭代优化机器学习的定义根据已有的数据进行算法选择,并基于算法和数据构建模型,最终对未来进行预测。算法中的基本参数输入: x∈χ(属性值)输出:y∈Y(目标值)获得一个目标函...原创 2019-12-29 00:03:38 · 304 阅读 · 0 评论