自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 收藏
  • 关注

原创 特征锦囊:怎么简单使用LDA来划分数据且可视化呢?

今日锦囊特征锦囊:怎么简单使用LDA来划分数据且可视化呢?LDA算法在数据挖掘中是很基础的算法,简单回顾一下定义:LDA的全称为Linear Discriminant Analysis,...

2020-01-30 11:23:55 1035

原创 特征锦囊:怎么简单使用PCA来划分数据且可视化呢?

今日锦囊特征锦囊:怎么简单使用PCA来划分数据且可视化呢?PCA算法在数据挖掘中是很基础的降维算法,简单回顾一下定义:PCA,全称为Principal Component Analysi...

2020-01-29 16:35:50 1338

原创 强烈推荐!分享一个持续连载的《特征工程小锦囊》项目,代码已开源!

随着我们在机器学习、数据建模、数据挖掘分析这条发展路上越走越远,其实越会感觉到特征工程的重要性,平时我们在很多地方都会看到一些很好的特征工程技巧,但是都会是一个完整项目去阅读,虽然说这样...

2020-01-28 17:50:41 283

转载 收藏、退出一气呵成,2019年机器之心干货教程都在这里了

机器之心整理参与:张倩、蛋酱从 2016 年起,机器之心每年都会盘点全年的精华教程。去年就有小伙伴留言说要在 2019 年上半年把 2018 年的教程合集「啃下来」。现在都 2020 了...

2020-01-27 14:34:27 1478

转载 关于数据质量监控的一些思路分享

0x00 概述随着大数据时代的带来,数据的应用也日趋繁茂,越来越多的应用和服务都基于数据而建立,数据的重要性不言而喻。而且,数据质量是数据分析和数据挖掘结论有效性和准确性的基础,也是这一...

2020-01-22 21:19:24 1183

转载 机器学习面试的12个基础问题,强烈推荐!

选自Medium作者:JP Tech等机器之心编译毕业季找工作了?如果想应聘机器学习工程师岗位,你可能会遇到技术面试,这是面试官掂量你对技术的真正理解的时候,所以还是相当重要的。近日,J...

2020-01-21 21:25:48 450

转载 详解Python 3.8的海象算子:大幅提高程序执行效率

选自Medium作者:Animesh Gaitonde机器之心编译参与:Panda前几个月发布的 Python 3.8 包含了一项重要的新功能,即海象算子。如果合理运用,该算子能有效地提...

2020-01-20 23:01:54 196

转载 吴恩达《Machine Learning》Jupyter Notebook 版笔记发布!图解、公式、习题都有了

这门课是发布在 Coursera 上的,很多读者容易把它与吴恩达的另一门课 CS229 混淆。其实,今天讲的 Coursera 上的《Machine Learning》更加简单。其课程地...

2020-01-19 20:33:51 725

转载 强烈推荐!最好用的《机器学习实用指南》第二版终于来了,代码已开源!

早在去年的这个时候,红色石头就发文给大家推荐过一本非常棒的机器学习实用指南书籍《Hands-On Machine Learning with Scikit-Learn & Ten...

2020-01-18 22:59:29 259

原创 特征锦囊:怎么尽可能地修正数据倾斜的特征?

今日锦囊特征锦囊:怎么尽可能地修正数据倾斜的特征?上一个锦囊,分享了给大家通过skew的方法来找到数据集中有数据倾斜的特征(特征锦囊:怎么找出数据集中有数据倾斜的特征?),那么怎么去修正...

2020-01-17 21:30:43 606

转载 一个A/B测试的实际案例解读

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”作者:Tomi Mester编译:ronghuaiyang导读这是一个A/B测试的真实案例,看看大家能学到些什么。今天,我想给大...

2020-01-16 23:42:00 543

转载 AutoGluon 低调开源!性能超过人类调参师6个点

机器之心报道机器之心,Datawhale编辑自动机器学习效果能有多好?比如让 MobileNet1.0 backbone 的 YOLO3 超过 ResNet-50 backbone 的 ...

2020-01-15 23:05:46 4508

原创 特征锦囊:怎么找出数据集中有数据倾斜的特征?

今日锦囊特征锦囊:怎么找出数据集中有数据倾斜的特征?今天我们用的是一个新的数据集,也是在kaggle上的一个比赛,大家可以先去下载一下:下载地址:https://www.kaggle.c...

2020-01-14 22:10:59 1644

原创 特征锦囊:如何把分布修正为类正态分布?

今日锦囊特征锦囊:如何把分布修正为类正态分布?今天我们用的是一个新的数据集,也是在kaggle上的一个比赛,大家可以先去下载一下:下载地址:https://www.kaggle.com/...

2020-01-13 21:20:33 1852

原创 特征锦囊:如何根据变量相关性画出热力图?

今日锦囊特征锦囊:如何根据变量相关性画出热力图?上次的锦囊有提及到如何使用sklearn来实现多项式的扩展来衍生更多的变量,但是我们也知道其实这样子出来的变量之间的相关性是很强的,我们怎...

2020-01-12 12:00:00 5182

转载 风控特征的关系网络特征工程入门实践

风控业务背景常规RFM时间切片统计特征侧重于纵向维度量化用户风险,而关系网络特征则从横向维度来评估。纵向是指同一用户在不同时间段上的行为异常风险;横向是指在同一个时间段里聚集的不同用户放...

2020-01-11 20:17:42 433

原创 特征锦囊:如何使用sklearn的多项式来衍生更多的变量?

今日锦囊特征锦囊:如何使用sklearn的多项式来衍生更多的变量?关于这种衍生变量的方式,理论其实大家应该很早也都听说过了,但是如何在Python里实现,也就是今天在这里分享给大家,其实...

2020-01-11 20:17:42 897

原创 特征锦囊:如何把“年龄”字段按照我们的阈值分段?

今日锦囊特征锦囊:如何把“年龄”字段按照我们的阈值分段?我们在进行特征处理的时候,也有的时候会遇到一些变量,比如说年龄,然后我们想要按照我们想要的阈值进行分类,比如说低于18岁的作为一类...

2020-01-10 12:00:00 1346

原创 特征锦囊:如何对类别变量进行独热编码?

今日锦囊特征锦囊:如何对类别变量进行独热编码?很多时候我们需要对类别变量进行独热编码,然后才可以作为入参给模型使用,独热的方式有很多种,这里介绍一个常用的方法 get_dummies吧,...

2020-01-09 20:55:34 871

转载 代码对比工具,我就用这6个

转自:yueliang2100链接:https://blog.csdn.net/yueliang2100/article/details/82190257在程序开发的过程中,程序员会经常...

2020-01-08 08:45:05 144

原创 特征锦囊:如何利用字典批量修改变量值?

今日锦囊特征锦囊:如何利用字典批量修改变量值?这里我们假设有这么一种情况,一个字段里的变量值,需要把某几个变量值修改为同一个值,然后其他几个变量值修改为另外一个,那么我们有什么简单的办法...

2020-01-08 08:45:05 679 1

转载 数据清洗,试试这 8套Python代码

原作 Kin Lim Lee乾明 编译整理量子位 出品 | 公众号 QbitAI数据清洗,是进行数据分析和使用数据训练模型的必经之路,也是最耗费数据科学家/程序员精力的地方。这些用于数据...

2020-01-07 11:18:00 331

原创 特征锦囊:怎么通过正则提取字符串里的指定内容?

今日锦囊怎么通过正则提取字符串里的指定内容?这个正则表达式在我们做字符提取中是十分常用的,先前有一篇文章有介绍到怎么去使用正则表达式来实现我们的目的,大家可以先回顾下这篇文章。图文并茂地...

2020-01-07 11:18:00 1913

转载 推荐系统特征工程的万字理论

作者丨gongyouliu编辑丨lily这是作者的第25篇文章,约2.2w字,阅读需120分钟推荐系统是机器学习的一个子领域,并且是一个偏工程化、在工业界有极大商业价值的方向。大量应...

2020-01-06 12:15:00 671

原创 特征锦囊:怎么对满足某种条件的变量修改其变量值?

今日锦囊怎么对满足某种条件的变量修改其变量值?未来几个特征锦囊的内容会使用泰坦尼克号的数据集,大家可以在下面的链接去下载数据哈。Titanic数据集下载:https://www.kagg...

2020-01-06 12:15:00 181

转载 算法在岗一年的经验总结

【ML&DEV】这是大家没有看过的船新栏目!ML表示机器学习,DEV表示开发,本专栏旨在为大家分享作为算法工程师的工作,机器学习生态下的有关模型方法和技术,从数据生产到模型部署维...

2020-01-05 12:01:00 222

原创 特征锦囊:怎么把画出堆积图来看占比关系?

今日锦囊怎么把画出堆积图来看占比关系?未来几个特征锦囊的内容会使用泰坦尼克号的数据集,大家可以在下面的链接去下载数据哈。Titanic数据集下载:https://www.kaggle.c...

2020-01-05 12:01:00 443

转载 如何把Python中的For循环替换为Map, Filter, 和Reduce

导读想不想去掉瀑布一样的For循环?使用函数式编程来写代码。你有没有过看自己的代码的时候,看到瀑布一样的 for 循环?你是否发现自己不得不眯着眼睛,向显示器前倾才能看得更清楚?我知道我...

2020-01-04 15:22:34 196

转载 特征锦囊:怎么把几个图表一起在同一张图上显示?

今日锦囊怎么把几个图表一起在同一张图上显示?未来几个特征锦囊的内容会使用泰坦尼克号的数据集,大家可以在下面的链接去下载数据哈。Titanic数据集下载:https://www.kaggl...

2020-01-04 15:22:34 1314

原创 2020年,Do more, know more, be more

毫无意外地我们翻过2019年进入2020年了,也毫无意外地近期的我们想要在新的一年干一波大事的意愿是最强的,可惜的是随着时间的推移这股“力量”会逐渐淡去。那么怎么保持这种干劲呢?我的方法...

2020-01-03 08:38:00 1597

原创 特征锦囊:怎么定义一个方法去填充数值变量的空值?

预计阅读时间:3分钟今日锦囊怎么定义一个方法去填充数值变量的空值?这个锦囊和上一个差不多了,不过这个换一个方法 Imputer 。同样的,我们还是造一个数据集:# 本次案例使用的数据集...

2020-01-03 08:38:00 219

原创 特征锦囊:怎么定义一个方法去填充分类变量的空值?

预计阅读时间:3分钟今日锦囊怎么定义一个方法去填充分类变量的空值?之前我们说过如何删除掉缺失的行,但是如何我们需要的是填充呢?比如说用众数来填充缺失,或者用某个特定值来填充缺失值?这个也...

2020-01-02 08:08:19 676 1

原创 SAMshare的2019年总结报告!

2019总结2019年结束了,这一年算是创建公众号以来运营得比较勤快的一年了!说起这个号,自创建到现在都差不多4年了,但是前面3年都是纯粹地在自己写东西,也没想着运营,因此也是阅读量惨淡...

2020-01-01 11:47:19 179

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除