张月鹏的博客

数据爱好者

xgboost 使用 MAE或MAPE 作为目标函数

xgboost目标函数 首先我们知道xgboost支持自定义目标函数,参见: https://github.com/dmlc/xgboost/blob/master/demo/guide-python/custom_objective.py 但是其要求目标函数必须二阶可导,我们必须显式给...

2018-01-30 16:21:40

阅读数 2621

评论数 0

类别特征处理与实体嵌入

常见的类别特征处理方法 one-hot (太经典这里不再介绍) histgram 映射 Entity Embeddings(实体嵌入) histgram 映射 比如我们根据人们的一些身体特征来预测这个人会不会得糖尿病 其中有一个类别特征为男或者女,这时候我们如何对这个特征进行映射处...

2018-01-07 22:42:33

阅读数 2405

评论数 0

java.io.IOException: No FileSystem for scheme: file spark hadoop

在spark实例程序中报错:No FileSystem for scheme: file

2017-11-23 16:43:12

阅读数 2120

评论数 1

Prophet(预言者)facebook时序预测----论文总结以及调参思路

一篇关于Prophet论文总结以及调参思路的总结

2017-10-30 22:17:06

阅读数 7674

评论数 2

kafka consumer 如何设置每次重启时从最新数据开始读取

最近在做实时报警的机制,显然我需要程序每次重启时都读取最新数据。但是寻找了半天无论是kafka的java客户端还是python客户端都没有这样的设置参数。没办法只能自己实现了,思路有两种。

2017-10-25 16:22:53

阅读数 4128

评论数 0

ImportError: cannot import name activity_l2

在学习fast.ai第一课运行代码就会报错:ImportError: cannot import name activity_l2,这是因为最新版本的keras已经不再提供activity_l2接口,最简单的方式大家可以使用命令:pip install keras == 1.2.2将版本退回到1....

2017-09-19 15:11:10

阅读数 1787

评论数 1

Andrew Ng(吴恩达) deep learning 课程 (coursera)

引言 前段时间 Andrew Ng(吴恩达)在 Coursera 开设了深度学习的课程,正如 Andrew 在 Coursera 上的机器学习课程一样,Andrew 总是面向零基础的工程师来授课,而不是有专业背景的人员。所以课程总是会力求直观且应用性强,但是往往对专业从事机器学习的人员来看略显简...

2017-09-16 10:16:10

阅读数 4278

评论数 0

离群点检测与序列数据异常检测以及异常检测大杀器-iForest

异常检测,它的任务是发现与大部分其他对象不同的对象,我们称为异常对象。异常检测算法已经广泛应用于电信、互联网和信用卡的诈骗检测、贷款审批、电子商务、网络入侵和天气预报等领域。这些异常对象的主要成因有:来源于不同的模式、自然变异、数据测量以及随机误差等。而常见的异常检测算法都是针对独立的数据点进行异...

2017-08-16 20:21:59

阅读数 8955

评论数 0

pandas 解析json文件为DataFrame的三种方式以及其灵活度和效率的比较

我所了解到的,将json串解析为DataFrame的方式主要有一样三种: 利用pandas自带的read_json直接解析字符串 利用json的loads和pandas的json_normalize进行解析 利用json的loads和pandas的DataFrame直接构造(这个过程需要手动修改...

2017-07-30 18:25:03

阅读数 25732

评论数 3

sklearn(scikit-learn) logistic regression loss(cost) function(sklearn中逻辑回归的损失函数)

讲述 sklearn 中逻辑回归的损失函数为什么与常见的形式不同。

2017-05-23 00:26:45

阅读数 2379

评论数 3

xgboost 参数 scale_pos_weight 详解

从官网解说、源码和实验三个角度来解说 xgboost 参数: scale_pos_weight

2017-05-16 12:42:56

阅读数 12716

评论数 4

携程-出行产品未来14个月销量预测-第七名代码解读

本文简短介绍了我们团队-小月亮团队的解决方案,以及源码地址。 还有top3队伍的解决思想

2017-05-16 00:04:51

阅读数 2801

评论数 1

《TensorFlow实战》与《TensorFlow实战Google深度学习框架》对比认识

研究生的毕业论文提交以后,有了一定的闲暇时间就读了最近刚出版的两本介绍 TensorFlow 的书籍《TensorFlow实战》和《TensorFlow实战Google深度学习框架》。以下是我对两本书的对比认识,希望对打算买书的人有所参考。

2017-05-05 20:12:31

阅读数 16725

评论数 1

深度学习(deep learning)优化调参细节(trick)

深度学习中的优化调参细节总结

2017-04-22 23:00:10

阅读数 9521

评论数 0

模型融合-Kaggle Ensembling Guide

本文主要是参考 Kaggle Ensembling Guide 所写的读后感,原文网址详见:https://mlwave.com/kaggle-ensembling-guide/首先,我们讲到的模型融合的方式主要有三种: bagging (随机森林模型是基于bagging融合的代表) boosti...

2017-04-11 19:22:10

阅读数 5610

评论数 0

Windows+python安装xgboost(fix windowerror-127)

Windows安装xgboost(绝对最靠谱,没有之一)话不多说,今天看一个python源码用到了xgboost,而安装xgboost本来是比较简单的,遇到坑了,最后终于顺利安装完毕。

2017-03-26 18:52:24

阅读数 507

评论数 3

浅议深度学习

浅议深度学习从2012年开始,深度学习无论是在学术界还是在工业界都引起了极大的关注,深度学习应该说是代表了AI的最高成果,那么深度学习为什么这么火,让我们来一探究竟。从机器学习到深度学习learning让人一听就是高大上的感觉,但是大部分做的东西其实与数据挖掘无异。机器学习最经典的用法大部分都是从...

2016-08-05 20:16:35

阅读数 660

评论数 0

kafka offset 如何保证三种语义传递

kafka 提供三种语义的传递:                1至少一次                2至多一次                3精确一次      首先在 producer 端保证1和2的语义是非常简单的,至少一次只需要同步确认即可(确认方式分为只需要 leader 确认以及...

2016-06-30 10:07:51

阅读数 3850

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭