自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 大众估值项目

1 为jupyter 添加目录conda install -c conda-forge jupyter_contrib_nbextensions

2019-11-01 13:41:54 155

转载 理解梯度下降

理解梯度下降最优化问题导数与梯度推导过程实现细节问题

2019-10-21 13:48:40 99

转载 机器学习——逻辑回归

1.逻辑回归与线性回归的联系与区别2.逻辑回归的原理3.逻辑回归损失函数推导及优化4.正则化与模型评估指标5.逻辑回归的优缺点6.样本不均衡问题解决办法7.sklearn参数一 .逻辑回归与线性回归的联系与区别逻辑回归(Logistic Regression)与线性回归(Linear Regression)都属于广义线性回归模型。在分类问题中,预测属于某类的概率,可以看成回归问题...

2019-10-18 10:12:33 145

转载 机器学习算法

逻辑斯蒂回归支持向量机决策树AdaBoost 算法梯度提升决策树 GBDT机器学习实践

2019-10-17 13:31:11 97

转载 机器学习工程实战

超参数选择几种参数估计的区别于联系: MLE、MAP、贝叶斯 TODO余弦相似度(Cos距离)与欧氏距离的区别和联系监督学习和无监督学习熵,求投掷均匀正六面体骰子的熵混淆矩阵、模型度量指标:准确率、精确率、召回率、F1 值等如何处理数据中的缺失值介绍一个完整的机器学习项目流程数据清洗与特征处理关联规则挖掘的 3 个度量指标:支持度、置信度、提升度...

2019-10-17 10:35:36 161

原创 偏差和方差(boosting 和bagging),先验概率后验概率,生成和判别模式

添加链接描述

2019-10-17 09:48:10 236

原创 机器学习之XGBOOST全面理解

一:目标函数训练损失和正则化项两部分(1)L:代表损失函数,常见的损失函数平方损失函数:逻辑回归损失函数:(2)y^ : xgboost是一个加法模型,因此预测得分是每棵树打分之和。(3)正则项:k棵数的复杂度之和。第t棵树第t次迭代驯练的模型是ft(x)泰勒展开式x 对应前t-1棵数,^x相当于第t棵树。定义损失函数关于y’(t-1)的一阶偏导数 gi 和二阶偏导数hi...

2019-10-15 15:03:56 228

原创 机器学习之 决策树、随机森林

一、决策树选择特征来分割分割方法:ID3、C4.5、CART1.ID3:信息增益来选择最优分割ID3偏向取值较多的属性,例如ID列2.C4.5:信息增益率选择最优分割信息增益 / IV属性A的特征个数越多,IV越大。信息增益率又会偏向较少的特征。C4.5先找出信息增益高于平均水平的属性,再从中选择增益率最高的。对于连续属性采用二分法,从小到大排序,中间值作为分割点,计算信息增益率,...

2019-10-14 21:47:35 135

原创 python tips(一)

1 python一次连接多个前缀相同的数据库表coon=pymysql.connect(host="",user="root",passwd="",db="")for i in range(1,10,1): finattprice_2019_="finattprice_2019_"+str(i) sql="select * from"+" "+finattprice_2019_...

2019-10-10 13:59:11 112

原创 Task1 随机森林

随机森林算法梳理集成学习的概念集成学习(ensemble learning)是时下非常流行的机器学习算法,它本身不是一个单独的机器学习算法,而是通过在数据上构建多个模型,集成所有模型的建模结果。基本上所有的机器学习领域都可以看到集成学习的身影,在现实中集成学习也有相当大的作用,它可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。在现在的各种算法竞赛...

2019-08-07 18:10:26 100

原创 sklearn 随机森林

1概述1.1集成算法概述随机森林、GBDT(梯度提升树)、Xgboost等集成算法随处可见,应用广、效果好。集成算法的目标:考虑多个评估器的建模结果,来获取比单个模型更好的回归或分类三类集成算法:Bagging(装袋法)、Boosting(提升法)、stackingBagging(装袋法):随机森林Boosting(提升法:Adaboost、梯度提升树1.2sklearn中集成算法的...

2018-11-26 18:32:03 303

原创 CDA LEVEL 2建模分析师(一)

PART 1数据挖掘基础理论(20%)a 数据挖掘概要(2%)数据挖掘起源、定义、目标数据挖掘的发展历程定义:目标:预测和描述数据挖掘方法和原理(7%)CRISP-DM:商业理解、数据理解、数据准备、建模、评估、部署SEMMA :数据挖掘方法论Sample──数据取样_ Explore──数据特征探索、分析和予处理_ Modify──问题明确化、数据调整和技术选择_ ...

2018-11-24 15:54:57 848 1

原创 *python LinearRegression建模 笔记(一)

python LinearRegression建模 笔记(一)主要用到的包:pd.set_optionmatplotlib.pyplot as pltimport seaborn as snsfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import Imputerfro...

2018-11-08 10:58:18 854

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除