- 博客(29)
- 资源 (4)
- 收藏
- 关注
转载 LightGBM算法的特别之处
转自:https://blog.csdn.net/ictcxq/article/details/78733629 自从微软推出了LightGBM,其在工业界表现的越来越好,很多比赛的Top选手也掏出LightGBM上分。所以,本文介绍下LightGBM的特别之处。LightGBM算法在模型的训练速度和内存方面都有相应的优化。基于树模型的boost...
2018-09-27 15:01:19 1643
原创 LightGBM简单使用
# pip install lightgbm==2.1.2import lightgbm as lgbimport pandas as pdfrom pandas import DataFrameimport gcfrom sklearn.model_selection import train_test_splitfrom matplotlib import pyplot #...
2018-09-27 14:40:02 2859
原创 xgboost基本原理
目标函数其中,上式第一项称为误差函数,常见的误差函数有平方误差,logistic误差等等,第二项称为正则项,常见的有L1正则和L2正则,表示树的复杂度的函数,越小复杂度越低,泛化能力越强。基学习器分类树和回归树(CART)树集成模型学习每一次保留原来的模型不变,加入一个新的函数f到我们的模型中。f 的选择标准—最小化目标函数!通过二阶泰勒展开等,我们得到了最终的目标函数:...
2018-09-26 16:49:55 263
原创 聚类算法
K-MEANS算法K-均值是把数据集按照k个簇分类,其中k是用户给定的,其中每个簇是通过质心来计算簇的中心点。首先创建一个初始划分,随机地选择 k 个对象(中心点),每个对象初始地代表了一个簇中心。对于其他的对象,根据其与各个簇中心的距离,将它们赋给最近的簇,然后重新计算簇的平均值,将每个簇的平均值重新作为中心点,然后对对象进行重新分配。这个过程不断重复,直到没有簇中对象的变化。基本...
2018-09-21 10:31:51 220
原创 支持向量机
支持向量机SVM的英文全称是Support Vector Machines,我们叫它支持向量机。支持向量机是我们用于分类的一种算法。参考:https://blog.csdn.net/jiaoyangwm/article/details/79579784http://cuijiahua.com/blog/2017/11/ml_8_svm_1.html...
2018-09-20 16:36:07 178
原创 集成算法
集成学习框架:bagging,boosting和stackingBagging典型的代表:随机森林。从训练集从进行子抽样组成每个基模型所需要的子训练集,对所有基模型预测的结果进行综合产生最终的预测结果:Boosting典型代表:AdaBoost, Xgboost。训练过程为阶梯状,基模型按次序一一进行训练(实现上可以做到并行),基模型的训练集按照某种策略每次都进行一定的转化。如果某...
2018-09-20 09:06:49 1275
原创 决策树
决策树是表示基于特征对实例进行分类的树形结构。从给定的训练数据集中,依据特征选择的准则,递归的选择最优划分特征,并根据此特征将训练数据进行分割,使得各子数据集有一个最好的分类的过程。树的组成根节点:第一个选择点非叶子节点与分支:中间过程叶子节点:最终的决策结果如何切分特征(选择节点)问题:根节点的选择该用哪个特征呢?接下来呢?如何切分呢?决策树算法...
2018-09-19 16:37:56 132
原创 机器学习中L1和L2正则化
L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择L2正则化可以防止模型过拟合(overfitting);一定程度上,L1也可以防止过拟合具体参考:https://blog.csdn.net/jinping_shi/article/details/52433975...
2018-09-19 11:13:52 194
原创 机器学习分类数据不均衡的简单处理
分类数据不均衡的简单处理下采样随机选择类别较多的数据与类别较少的数据一致。# X特征,y类别X = data.ix[:, data.columns != 'Class']y = data.ix[:, data.columns == 'Class']# 小类别数据个数number_records_fraud = len(data[data.Class == 1])# 小类别数据索引...
2018-09-19 10:16:40 472
原创 逻辑回归
逻辑回归# sigmoid 函数def sigmoid(z): return 1 / (1 + np.exp(-z))# 绘图nums = np.arange(-10, 10, step=1) #creates a vector containing 20 equally spaced values from -10 to 10fig, ax = plt.subplots(fi...
2018-09-19 10:12:17 285
原创 线性回归
线性回归回归方程 其中x0=1最小二乘法损失函数梯度下降引入:当我们得到了一个目标函数后,如何进行求解?如上直接求解?(并不一定可解,线性回归可以当做是一个特例)先假定有一个Loss Function只有一个变量w:然后我们把L(w)的图形画出来,横轴是w,纵轴是L,假设是下面这样一个图形:寻找L(w)最小值的方法是:**第一步:**随机选取一个w值 ;**第...
2018-09-18 11:12:21 183
原创 missingno绘制缺失数据分布图
missingno绘制缺失数据分布图import seaborn as sns # advanced vizsimport missingno as msno # missing values# missing values?sns.set(style = "ticks")msno.matrix(data)#https://github.com/ResidentMario/m...
2018-09-17 11:11:54 2880
原创 核函数
核函数定义 假设X是输入空间,H是特征空间,存在一个映射ϕϕ使得X中的点x能够计算得到H空间中的点h h=ϕ(x) 对于所有的X中的点都成立,x,z是X空间中的点。函数k(x,z)满足条件: k(x,z)=ϕ(x)⋅ϕ(z) 都成立,则称k为核函数,而ϕ为映射函数。 距离与夹角 我们要进行高维空...
2018-09-17 10:33:04 618
转载 大数定律与中心极限定理
大数定律与中心极限定理大数定律中心极限定理大数定律讲的是样本均值收敛到总体均值(就是期望) :中心极限定理告诉我们,当样本量足够大时,样本均值的分布慢慢变成正态分布 :正态分布的u会越来越逼近总体均值,并且其方差满足a^2/n,a为总体的标准差,正态分布的方差越来越小。 转自:https://www.zhihu.com/question/22913867参考:...
2018-09-13 15:22:41 534
原创 马尔科夫不等式与切比雪夫不等式
马尔科夫不等式与切比雪夫不等式马尔科夫不等式切比雪夫不等式切比雪夫不等式就是刻画 事物偏离它本质的偏离程度 的大小 的概率。在随机变量分布未知的情况下,我们只知道均值和方差,切比雪夫不等式给出了x落入均值为中心的ε邻域概率的概率范围。参考: https://www.zhihu.com/question/27821324...
2018-09-13 15:08:40 20718
原创 概率论基础
概率论基础概率随机变量样本空间、样本点离散型随机变量、分布律连续型随机变量、概率密度函数联合概率分布边缘概率分布条件概率独立性 转自:http://www.cnblogs.com/sench/p/9478284.html参考:https://blog.csdn.net/zuochao_2013/article/details/70161286...
2018-09-13 14:44:56 246
原创 最大似然估计和最大后验概率估计
最大似然估计和最大后验概率估计最大似然估计 似然函数最大似然估计最大后验概率估计 条件概率公式全概率公式贝叶斯公式 先验概率后验概率最大后验概率估计给定观测量x时,关于参数θ的似然函数L(θ)(在数值上)等于给定参数θ后变量x的概率:L(θ)=L(θ|x)=pθ=p(x|θ)=p(x;θ)参考:https://blog.csdn.net...
2018-09-13 11:15:09 169
转载 数学期望、方差、标准差、协方差
转自:http://blog.51cto.com/11374450/2088372?utm_source=oschina-app数学期望方差 统计学方差概率论方差标准差协方差 概率论协方差统计学样本协方差相关系数协方差矩阵...
2018-09-12 15:44:35 1131
转载 AIQ - deeplearning.ai 全套吴恩达老师的深度学习课程笔记
http://www.6aiq.com/deeplearning_ai/html/SUMMARY.html深度学习笔记目录第一门课 神经网络和深度学习(Neural Networks and Deep Lear...
2018-09-12 14:34:27 600
原创 数学基础--拉格朗日乘子法
数学基础–拉格朗日乘子法基本的拉格朗日乘子法就是求函数f(x1,x2,…)在约束条件g(x1,x2,…)=0下的极值的方法。
2018-09-10 15:17:37 414
原创 数学基础--向量
数学基础–向量向量向量运算内积范数夹角向量组向量线性相关如:现在三种颜色e1=(1,0,0),e2=(0,1,0),e3=(0,0,1)可以组合成其他任何颜色,比如某一颜色a=(24,0,127)=24*e1+0*e2+127*e3(可由这三种颜色线性表出),所以a和e1,e2,e3是线性相关的。但是e1,e2与e3这三个之间不能由其余两个线性表出(比如e2与e3组...
2018-09-10 14:09:13 307
原创 kettle导入es id错误解决
kettle导入es错误解决:an id must be provided if version type or value are set问题原因:OpType Create without an ID As of 5.0 indexing a document with op_type=create without specifying an ID is not su...
2018-09-05 13:53:32 3061 2
原创 kettle7.0写入elasticsearch6.3.2
kettle7.0写入elasticsearch6.3.2插件之前写了5.x的插件,但是6.x的api改动也较大,主要介绍改动部分,源码更改编译见前篇。客户端获取,ElasticSearchBulk中private TransportClient client;private void initClient() throws UnknownHostException { ...
2018-09-03 17:05:03 6308 14
oracle11g-el7依赖
2018-06-21
python连接oracle包
2018-04-23
gcc安装依赖包
2018-04-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人