大胃德
码龄18年
关注
提问 私信
  • 博客:23,949
    23,949
    总访问量
  • 6
    原创
  • 948,373
    排名
  • 7
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2007-03-11
博客简介:

大胃德的算法小屋

博客描述:
最富有的人和最贫穷的人都平等享有每天的24小时,看你怎么活
查看详细资料
个人成就
  • 获得10次点赞
  • 内容获得4次评论
  • 获得31次收藏
创作历程
  • 5篇
    2019年
  • 5篇
    2018年
成就勋章
TA的专栏
  • 机器学习算法推导
    2篇
  • 机器学习问题汇总
    1篇
  • 机器学习
    5篇
  • 编程语言学习
    2篇
  • 大数据
    2篇
  • 数据结构
    1篇
兴趣领域 设置
  • 大数据
    hadoophivestormspark
创作活动更多

HarmonyOS开发者社区有奖征文来啦!

用文字记录下您与HarmonyOS的故事。参与活动,还有机会赢奖,快来加入我们吧!

0人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

机器学习算法推导——xgboost

文章目录1、首先是模型2、接下来设定目标函数=损失函数+正则项。3、如何得到树树怎么转换成权重1、首先是模型基学习器为树模型、采用boosting集成方法2、接下来设定目标函数=损失函数+正则项。2.1 不限定损失函数的具体形式,只要其二阶可导。这样我们不需要为每一个具体的损失函数单独推导一个模型,而是得到一个通用的模型2.2 再看正则项用这个来控制树的复杂度。后一项是L2,是...
原创
发布博客 2019.12.05 ·
280 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

机器学习算法推导——逻辑回归

前言我们知道,线性回归的公式是hθ(x)=θTxh_{\theta}(x)={\theta}^Txhθ​(x)=θTx如果想实现分类功能,就需要把输出变成一个阶跃函数,比如y={0;z⩽01;z⩾0,z=hθ(x)y=\left\{\begin{matrix}0; & z\leqslant 0 \\ 1; & z \geqslant 0\end{matrix}\...
原创
发布博客 2019.12.05 ·
454 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

机器学习问题汇总——逻辑回归

文章目录问题1:LR和线性回归,有何异同问题2:为什么要用Sigmoid问题3:为什么叫对数几率函数问题4:为什么LR用最大似然而不是最小二乘作为损失函数问题5:逻辑回归在训练的过程当中,如果有很多的特征高度相关或者说有一个特征重复了100遍,会造成怎样的影响?问题6:LR的缺点问题7:LR和神经网络的关系问题1:LR和线性回归,有何异同1、LR是分类问题,线性回归是回归问题,这是最本质的区别...
原创
发布博客 2019.12.04 ·
598 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

beeline导出csv

导出csvbeeline -n dmp -p dmp@MLJR -u jdbc:hive2://10.8.49.171:10000/risk_prsv -f hivesql3.hql --showHeader=true --outputformat=csv2 --silent=true > output.csv
转载
发布博客 2019.05.17 ·
2665 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

数据结构-图

文章目录1、概念1.1 图2、图的存储2.1 邻接矩阵2.2 邻接表3、图的遍历3.1 基本思路3.2 广度优先遍历BFS3.3 深度优先遍历DFS参考1、概念1.1 图图(Graph)是由顶点的集合和顶点之间边的集合组成,通常表示为:G(V,E)G(V,E)G(V,E)其中,G表示一个图,V是图G中顶点的集合,E是图G中边的集合。在图中的数据元素,我们称之为顶点(Vertex),顶...
转载
发布博客 2019.03.23 ·
2406 阅读 ·
5 点赞 ·
0 评论 ·
18 收藏

Pandas笔记

创建数据随机数据创建一个Series,pandas可以生成一个默认的索引s = pd.Series([1,3,5,np.nan,6,8])通过numpy创建DataFrame,包含一个日期索引,以及标记的列dates = pd.date_range('20170101', periods=6)df = pd.DataFrame(np.random.randn(6,...
原创
发布博客 2018.07.19 ·
424 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

Light GBM solution for Credit Fraud Detection

转自:https://www.kaggle.com/georsara1/light-gbm-solution-for-credit-fraud-detection kaggle上一篇不错的代码,最后有生成混淆矩阵图#Import modulesimport numpy as npimport pandas as pdimport seaborn as snsimport matplo...
转载
发布博客 2018.07.11 ·
748 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

spark操作笔记(持续更新)

DataFramecol批量重命名dataset = dataset.toDF(dataset.columns.map(col => col.split("\\.", 2)(1)):_*)RDD
原创
发布博客 2018.07.11 ·
213 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Scala中复杂对象转JSON和解析的方法(持续更新)- 待增加保存和读取操作

比如有一个复杂对象: Map[Int, Map[Int, Double]] 需要将其转为JSON保存,之后再读取使用,试了几种方法,最后的方案是: 1、定义case class 2、所有的数据类型都转为String(避免不必要的麻烦) 3、Map必须是immutable.Map代码如下 1、转jsonimport org.json4s.JsonDSL._import or...
原创
发布博客 2018.07.09 ·
14418 阅读 ·
3 点赞 ·
4 评论 ·
6 收藏

用scikit-learn生成测试数据集

转自https://www.jiqizhixin.com/articles/2018-02-05-2分类测试问题将看三个分类问题:blobs、moons 和 circles。线性分类make_blobs() 函数可被用于生成具有高斯分布的 blobs 点。你可以控制生成 blobs 的数量,生成样本的数量以及一系列其他属性。考虑到 blobs 的线性可分性质,该问题也适用于线性分类...
转载
发布博客 2018.07.04 ·
1709 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏