自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大胃德的算法小屋

最富有的人和最贫穷的人都平等享有每天的24小时,看你怎么活

  • 博客(10)
  • 收藏
  • 关注

原创 机器学习算法推导——xgboost

文章目录1、首先是模型2、接下来设定目标函数=损失函数+正则项。3、如何得到树树怎么转换成权重1、首先是模型基学习器为树模型、采用boosting集成方法2、接下来设定目标函数=损失函数+正则项。2.1 不限定损失函数的具体形式,只要其二阶可导。这样我们不需要为每一个具体的损失函数单独推导一个模型,而是得到一个通用的模型2.2 再看正则项用这个来控制树的复杂度。后一项是L2,是...

2019-12-05 10:03:06 277

原创 机器学习算法推导——逻辑回归

前言我们知道,线性回归的公式是hθ(x)=θTxh_{\theta}(x)={\theta}^Txhθ​(x)=θTx如果想实现分类功能,就需要把输出变成一个阶跃函数,比如y={0;z⩽01;z⩾0,z=hθ(x)y=\left\{\begin{matrix}0; & z\leqslant 0 \\ 1; & z \geqslant 0\end{matrix}\...

2019-12-05 00:41:08 452

原创 机器学习问题汇总——逻辑回归

文章目录问题1:LR和线性回归,有何异同问题2:为什么要用Sigmoid问题3:为什么叫对数几率函数问题4:为什么LR用最大似然而不是最小二乘作为损失函数问题5:逻辑回归在训练的过程当中,如果有很多的特征高度相关或者说有一个特征重复了100遍,会造成怎样的影响?问题6:LR的缺点问题7:LR和神经网络的关系问题1:LR和线性回归,有何异同1、LR是分类问题,线性回归是回归问题,这是最本质的区别...

2019-12-04 23:11:10 596

转载 beeline导出csv

导出csvbeeline -n dmp -p dmp@MLJR -u jdbc:hive2://10.8.49.171:10000/risk_prsv -f hivesql3.hql --showHeader=true --outputformat=csv2 --silent=true > output.csv

2019-05-17 15:35:29 2648

转载 数据结构-图

文章目录1、概念1.1 图2、图的存储2.1 邻接矩阵2.2 邻接表3、图的遍历3.1 基本思路3.2 广度优先遍历BFS3.3 深度优先遍历DFS参考1、概念1.1 图图(Graph)是由顶点的集合和顶点之间边的集合组成,通常表示为:G(V,E)G(V,E)G(V,E)其中,G表示一个图,V是图G中顶点的集合,E是图G中边的集合。在图中的数据元素,我们称之为顶点(Vertex),顶...

2019-03-23 11:57:47 2402

原创 Pandas笔记

创建数据随机数据创建一个Series,pandas可以生成一个默认的索引s = pd.Series([1,3,5,np.nan,6,8])通过numpy创建DataFrame,包含一个日期索引,以及标记的列dates = pd.date_range('20170101', periods=6)df = pd.DataFrame(np.random.randn(6,...

2018-07-19 16:02:47 423

转载 Light GBM solution for Credit Fraud Detection

转自:https://www.kaggle.com/georsara1/light-gbm-solution-for-credit-fraud-detection kaggle上一篇不错的代码,最后有生成混淆矩阵图#Import modulesimport numpy as npimport pandas as pdimport seaborn as snsimport matplo...

2018-07-11 18:42:04 746

原创 spark操作笔记(持续更新)

DataFramecol批量重命名dataset = dataset.toDF(dataset.columns.map(col => col.split("\\.", 2)(1)):_*)RDD

2018-07-11 18:40:26 213

原创 Scala中复杂对象转JSON和解析的方法(持续更新)- 待增加保存和读取操作

比如有一个复杂对象: Map[Int, Map[Int, Double]] 需要将其转为JSON保存,之后再读取使用,试了几种方法,最后的方案是: 1、定义case class 2、所有的数据类型都转为String(避免不必要的麻烦) 3、Map必须是immutable.Map代码如下 1、转jsonimport org.json4s.JsonDSL._import or...

2018-07-09 14:29:08 14413 4

转载 用scikit-learn生成测试数据集

转自https://www.jiqizhixin.com/articles/2018-02-05-2分类测试问题将看三个分类问题:blobs、moons 和 circles。线性分类make_blobs() 函数可被用于生成具有高斯分布的 blobs 点。你可以控制生成 blobs 的数量,生成样本的数量以及一系列其他属性。考虑到 blobs 的线性可分性质,该问题也适用于线性分类...

2018-07-04 23:26:00 1707

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除