ML
半夜起来敲代码
小学毕业
展开
-
回归问题
回归用于预测回归常见的就是线性回归 y = wx+b 理解就是超平面线性就是输入输出之间成线性关系的原创 2019-03-30 10:25:35 · 294 阅读 · 0 评论 -
提升树 & GBDT
仍然采用的是加法模型:注意看,这里没有用权值。这里分类树(二分类)就用Adaboost就行回归树采用残差训练在考虑,如何让训练过程快一点:让损失函数沿着梯度方向的下降。这个就是gbdt 的 gb的核心了。利用损失函数的负梯度在当前模型的值作为回归问题提升树算法中的残差的近似值去拟合一个回归树GBDT的思想可以用一个通俗的例子解释,假如有个人30岁,我们首先用20岁去拟合,发现损失有...原创 2019-04-02 16:41:12 · 207 阅读 · 0 评论 -
偏差,方差,噪声,泛化误差
偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响噪声则表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度泛化误差可分解为偏差、方差与噪声之和....原创 2019-04-02 19:49:04 · 390 阅读 · 0 评论 -
非平衡样本的处理问题
对于分类问题,这个样本数目不平衡是非常麻烦的一般而言,评价指标不要用Acc,没有意义,用PR或者ROC针对于临近样本的处理:合成样本方法:实际上就是每个样本找出来最近的k个样本(都是样本量少的),取距离中间值进行插值...原创 2019-04-08 20:13:43 · 416 阅读 · 1 评论 -
特征因子化
对于类别型特征,例如特征性别:{男人,女人},数据读取不容易,把它进行数值化。特征因子化就是把这个特征所有类别都展开变成:特征 男人、女人如果性别为男人,那么就是1,0反之为0,1...原创 2019-04-17 10:09:56 · 2098 阅读 · 0 评论 -
learning curve
学习曲线是不同训练集大小,模型在训练集和验证集上的得分变化曲线。在train和test上差距很大,train的误差较低但是test误差较高,这说明训练集上表现良好但是测试集表现较差,属于过拟合在train和test差距不大,都是很高的误差,说明训练的不到位,模型太简单,属于欠拟合对于理想情况,train和test的误差应该一样小这是从准确率上来看的learing curve效果...原创 2019-04-17 11:27:25 · 789 阅读 · 0 评论 -
ML实例:titan和house prise
首先第一步是先对数据有个整体的认识data = pd.read_csv('train.csv')dataframe = pd.DataFrame(data)dataframe.info()dataframe.isnull().any()然后先不管存在有缺失值的属性特征,先把全的特征给分析一波redataframe.info()redataframe.describe()然后剔除...原创 2019-04-22 10:21:17 · 179 阅读 · 0 评论 -
ML数据分析
数据准备->数据清洗->数据重构->数据分析典型的重构就是归一化1.拿到数据首先转换成.csv格式的,然后利用pandas读取,并且转换成DataFrame格式的数据(其他.txt格式的可以先变成dataframe格式的然后再dataframe.to_csv写成.csv文件)2。观察两个特征之间的关系,采用散点图表示pairplot,对于存在明显线性关系的特征可以绘制出来其...原创 2019-04-17 20:20:35 · 1325 阅读 · 0 评论 -
ML模型检测
模型训练出来了要进行检测,采用valid dataset来进行模型检验通常利用learning curve来进行模型的处理,看出来模型欠拟合/过拟合过拟合方法:首选正则化然后是增加数据量提取特征...原创 2019-04-19 10:43:40 · 604 阅读 · 0 评论 -
CART
分为回归树和分类树CART前提是采用的二叉树决策树,不论是回归还是分类都是是/否1。回归树假设把输入空间划分,每个空间单元有一个固定的输出值,模型表示为:易知每个单元Rm熵的固定输出值Cm最优值为样本在此单元上输出的均值。在确定模型中采用了平方误差来进行误差确定j是特征j,s是特征j对应的一个取值(就是要确定怎样划分空间,用什么特征,特征中的那个值)[ ] 里面的就是二叉树的两部...原创 2019-04-02 15:07:48 · 142 阅读 · 0 评论 -
boosting&Adaboost
Boosting是一项从多个弱分类器中构建强分类器的集成预测技术。它从训练数据中构建模型,然后通过修正前一个模型的错误创造出第二个模型。以此类推,模型不断叠加,直至能够完美预测训练数据集,或达到可添加的模型的数量上限。在针对二元分类所开发的boosting算法中,AdaBoost是第一个成功的。它是理解boosting算法的最佳起点。现代boosting方法基于AdaBoost而构建,最典型的例...原创 2019-04-02 10:05:15 · 225 阅读 · 0 评论 -
Bagging 与随机森林
对于基分类器的要求:使基学习器尽可能具有较大的差异&希望个体学习器不能太差采用“自助来样法”生成多个样本(有放回抽样),生成的每一个Dm都训练出来一个分类器,再将这些基学习器进行结合与标准 AdaBoost 只适用于二分类任务不间, Bagging 能不经修改地用于多分类、回归等任务.RF在以决策树为基学习器构建 Bagging 集成的基础上,进一步在决策树的训练过程中引入了随机属...原创 2019-04-02 09:50:32 · 905 阅读 · 0 评论 -
kd树学习体会
在构造1维BST树时,一个1维数据依据其与树的根结点和中间结点进行大小比較的结果来决定是划分到左子树还是右子树。同理。我们也能够依照这种方式,将一个K维数据与Kd-tree的根结点和中间结点进行比較。仅仅只是不是对K维数据进行总体的比較,而是选择某一个维度Di。然后比較两个K维数在该维度Di上的大小关系。即每次选择一个维度Di来对K维数据进行划分,相当于用一个垂直于该维度Di的超平面将K维数据空间...转载 2019-03-30 14:42:49 · 251 阅读 · 0 评论 -
决策树-特征连续/离散,输出连续/离散
特征:注意:普通的DT可以多分叉,CART是二叉树离散:DT就正常分,CART采用二分类,对于每个类别选择一个离散值,其余的合到一组(是/否分类思想)连续:都是采用二分,取值分成<=&>两部分输出离散:分类问题,GINI系数,信息增益连续:回归问题,采用min(两部分平方误差)...原创 2019-04-04 11:00:46 · 2431 阅读 · 0 评论 -
LR
属于对数线性模型logistic分布(S曲线)logistic函数二项logistic回归模型:分类模型,用条件概率P(x|y)来表示,类别Y取值0/1原创 2019-02-26 20:44:53 · 205 阅读 · 2 评论 -
频率学派和贝叶斯学派(含有一些MAP与MLE)
频率学派:事件本身是服从某种分布的,这种分布的参数是固定的,频率即概率,在极限情况下(数据量足够多)的情况下,频率可以近似看做概率,且概率是不变的,事件A在n次独立重复试验中发生的频率趋于极限p,那么此时频率可以看做该事件的概率。贝叶斯学派:我们无法确定这些参数(服从某种分布的),因此我们需要关心的是参数空间中的每一个值,我们假设这些参数值是符合某种分布的(先验假设),然后根据这个假设去做实验,...原创 2019-04-04 13:37:18 · 405 阅读 · 2 评论 -
EM算法
存在有Z隐变量未知和要求的未知参数核心方法就是,我先给你未知参数一个初始值,利用这个初始值求解Z的条件概率分布的期望(Q函数),之后要最大化这个Q函数,就可以得到新的未知参数θ值,一直这样循环下去EM算法的优化方法就是坐标上升法(每次就只改变一个量)...原创 2019-04-04 14:47:59 · 97 阅读 · 0 评论 -
ML简述
可见分成了四大类:回归,分类,聚类,降维监督学习首选SVM(不论分类还是回归,分类用SVC,回归用SVR)在回归中:SVM不好用就换核函数在分类中:SVM不好用按照特点继续选择对于文本分类问题用NB,对于样本依赖性强问题用KNN...原创 2019-04-04 17:12:54 · 179 阅读 · 0 评论 -
最小二乘&梯度下降
损失函数:最小二乘法:最终求得结果:梯度下降法:1.随机初始化 θ2.沿着负梯度方向迭代,使更新后的 θ 令 J(θ) 更小3.当下降到无法下降或某个定义的极小值时,则停止下降。(注:梯度下降的最终点并非是全局最小点,可能是一个局部最小点)相似:1.本质相同:两种方法都是在给定已知数据(independent & dependent variables)的前提下...转载 2019-04-02 09:21:01 · 577 阅读 · 0 评论 -
ML建模
在数据分析了之后就可以进行模型的建立了,机器学习模型有很多,建议均作尝试,不仅可以测试效果,还可以学习各种模型的使用技巧。其实,几乎每一种模型都有回归和分类两种版本,并且直接有scikit-learn、XGBoost、LightGBM这些库,直接可以用!对于模型,经典的要会推导,每种应用的模型要明确工作原理,大白话讲出来!对于重要的公式要回写。(random forest一般效果比较好)错误...原创 2019-05-09 16:32:13 · 711 阅读 · 0 评论