自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Toby的博客

苟有恒,何必三更起五更眠;最无益,只怕一日曝十日寒。Open your eyes, and you will meet those who are striving on the way like you and feel the way you do.

  • 博客(212)
  • 收藏
  • 关注

原创 tf.keras官方API文档框架理解

最近看tensorflow2官方API文档,尤其是tf.keras API文档,梳理下其框架,形成脑图,方便自己记忆,也有助于形成一张相互关联的知识图。如下:

2021-07-23 16:06:54 29

原创 学习TensorFlow的过程和经验总结

近日学习使用TensorFlow搭建神经网络建模终于取得了一些微小的成绩:1、学会了使用Squential \ class 搭建神经网络模型2、学会了使用compile来配置模型训练方法,如损失函数、优化器、准确性评价方法3、学会了一些经典的神经网络模型的实现方法4、学会了各优化器的作用和效果5、学会了搭建神经网络进行训练和学习的整体框架和步骤其实,我学习TensorFlow不止一两周了。我是从今年的2月份就开始学习了。当时报名了一个天池的算法比赛,需要使用CNN和RNN模型进行建模,所以

2021-07-22 21:27:28 32 2

翻译 理解LSTM模型

写在前面:这是翻译自colah的一篇博客,原文关于LSTM神经网络模型的理解写的非常直观、简单易懂,所以翻译过来帮助大家学习理解LSTM模型。当然我不是按照原文一字不落的翻译,而是摘出其中对模型理解最有帮助的部分,然后用我自己理解的方式和语言来写的博文。这是我翻译博文的一贯做法。有兴趣的可以自行去看原文,比较简短,原博客地址:http://colah.github.io/posts/2015-08-Understanding-LSTMs/一、循环神经网络RNNRNN循环神经网络使用循环核来实

2021-06-22 23:29:37 78 1

转载 【转】王兴饭否190条思考【世界观、人生观、价值观】

101.对三观的不同排序可能反映了人的不同思维模式。我理解的排序是:世界观、人生观、价值观。转自 《同样是技术出身,深夜看完王兴饭否的190条思考,越想越后怕!》作者l王兴 编辑| 易小飒来源l进击的阿秀(ID:zchxuexi)整理自王兴饭否版权申明:内容来源网络,版权归原创者所有。除非无法确认,都会标明作者及出处,如有侵权,烦请告知,会立即删除并致歉。谢谢!知乎上有个问题:王兴是不是被高估了?有个高赞回答说,王兴是真正值得学习的对象,作为身家 200...

2021-05-02 19:52:59 163

原创 10、《Spark高阶用法之机器学习》笔记

写在前面:在本分类专栏下的1-9翻译文章,和两篇sparkUDF的文章都是属于spark的常规低阶的用法,基本能满足日常的分析功能了。但是这些基本用法并没有涉及、也无法满足机器学习建模的需求。比如拆分特征向量和目标向量,比如生成特征向量,比如使用分类或回归模型,比如使用深度学习模型等....所以,从这篇文章开始,我们开始学习spark的高阶用法,即spark用于机器学习、深度学习。注意要结合官方文档学习,里面有非常详细的API说明和代码示例,非常有助于理解和实践应用。也是日后工作时常备的

2021-04-05 22:48:44 44 1

原创 《深度学习with Keras》笔记

深度学习with Keras

2021-03-22 16:53:49 26

原创 3、学会在人生需要做选择的时刻去做选择,而不是去怀疑当初选择的对错

不需要怀疑当初的选择是对是错。为什么当时的那个选择会成为你现在心心念念责怪或感恩的对象?当时的你为什么会面临选择?驱动你作出选择的生活原因、心理原因又都是什么?当时的选择有给你带来过高光吗?有让你觉得幸福过吗?既然有,那就不要怀疑当初的选择是对是错。它确实拯救了你,给你带来了幸福。而且我更可以肯定的是,当时的你并没有你现在想象中的那么多选择,你当时应该只有这一条路可以走而已。不信你看看你现在的境况,是不是也没有那么多选择?选择不仅仅是口头上的,更是实际行动产生出可评价结果的。你看看自己有

2021-03-12 16:23:06 254 2

转载 【转】如何让技术想法更容易被理解?【费曼4步学习法】

转载文章,原文来自阿里云云栖号,地址:https://mp.weixin.qq.com/s/TXX7OTnxa8iiENMOJr3-cQ我这里是对原文的摘录,删掉了一些内容,只保留了我觉得有收获的地方。原文采用的是一种很经典的写作手法。(我忘记叫什么了,姑且叫做三段式、小故事、或者Q&A的写作手法吧~~)首先,描述一个故事,引出一个问题。其次,就该问题指出应该要做的心态和方法的转变。最后,给出一个可行的行动方法或方式。所以,我摘录的时候几乎舍弃了全部的故事描述,或者仅用一句话来总..

2021-02-03 17:54:36 61

转载 【转】阿里毕玄:提升代码能力的4段经历【无它就是实干】

对于程序员而言,我始终认为代码是展现能力的关键。一个优秀程序员写的代码,和一个普通程序员写的代码是很容易看出差别的,代码是展示程序员硬实力的名片。如何提升写代码的能力,始终是一个关键的话题,不过很遗憾这篇文章其实也不是讲具体的步骤、银弹方法、武功秘籍什么的,这篇文章讲讲我自己印象中,对我写代码能力提升比较大的四段经历,也许可供参考。第一段:第一次感受每天亿级系统的挑战2008年,HSF的第二个版本,在当时淘宝最重要的交易中心上线,上线当天造成淘宝网站访问巨慢,交易类的页面几乎打不开,最后..

2021-01-29 11:30:02 71

转载 【转】Elon Musk 【带着目标学习、第一性原理思维,不去追逐平庸的机会,切身感受“追逐的力量”】

以下文章为转载摘录,作者云游小生最近,世界首富换人了!由于特斯拉股票疯狂暴涨,马斯克成了妥妥的新一届全球首富。同时,钟睒睒也力压印度首富安巴尼(Mukesh Ambani),晋身亚洲新首富。网上有媒体称,世界首富和亚洲首富一个卖车一个卖水!但其实这两人能够登上首富的宝座,早已不只是卖车和卖水的事情了。马斯克背后还有 Spacx、The Boring Company、Neuralink;钟睒睒背后还有万泰生物、养生堂等。但马斯克成为世界首富,给我们带来的启发更大,不..

2021-01-18 00:09:13 329 1

转载 【转】技术人如何加速成长?提升你的思维和学习方式【思想上勤奋、借事修人、第一性原理、结构化思维/金字塔原理、复盘、解构和重组】

原创涵爸阿里技术收录于话题 #技术人成长之路阿里妹导读:每个人都会经历一个新人的阶段,不管是初入职场,还是到一个新的工作环境。作为技术新人,我们常常会面临哪些困惑?普通人和非凡人的差异在哪里?除了体力上的勤奋,还有哪些方法可以加速成长?本文从第一性原理、结构化思维和多维度思考等方面分享如何从思维深度上提升自己,分享关于技术人成长之道的心得体会。一 摘要阿里优秀的人很多,他们身上共同的特质是什么?让我最佩服的是思考力强的人,对事情有深入洞见和观点的人。大多数人还停留在表面看...

2021-01-10 22:56:56 220

原创 2020年我是这么走过来的【目标和渴望、工具和效率、复盘和总结、做人和做事】

2020年很快就过去了。今年对于国家、世界发生了很多大事,对于我个人同样也发生了很多意义非比寻常的事情。2020年,确切地说是2019年的9月-2020年的12月,这一年零四个月的时间对于我来说是非常宝贵的一段人生经历。我满身疲倦的从前家公司离职,全身心地投入到自己喜欢的事情当中。经历无数彻夜奋战,经历了废寝忘食的努力,又经历了社会残忍的拒绝和鞭笞,一次次地失败、一次次的丧、之后又是一次次地爬起来。就在这样普通的日子中,我完成了很多认知上的转变,收获了很多专业上的知识。我放下了一些执念,放下了一些虚妄的

2021-01-10 22:37:40 63 1

原创 快速数据开发和复盘cheat sheet

给我的粉丝们发福利。近期做了一个项目,项目结束后做了复盘。这个过程中总结了快速数据开发手册 和复盘总结方法,得到了领导们的认可。四步法完成正向开发和反向复盘。去掉了与公司和业务相关的信息,只保留最核心最本质的做事和总结方法。...

2020-11-04 14:07:10 50

原创 Mac安装数据科学所需要的全部应用CheckList

入职新公司,全新Mac本,需要重新安装数据科学工作所需要的toolkits。工具安装checklist如下:1、sublime text 官网下载2、anaconda 官网下载:https://www.anaconda.com/分为 graphical 和command-line的版本,前者是图形化安装,后者是命令行安装的,选前者,按照提示安装即可。3、SecureCRT4、Xmind在APP store中搜索下载即可...

2020-09-07 19:21:45 104

转载 【转】机器学习必读TOP 100论文清单:高引用、分类全、覆盖面广丨GitHub 21.4k星

想要入门机器学习,奈何领域的新论文太多,不知道该看哪一篇?自2017年以来,超越SOTA的方法天天有,但往往针对性非常强,不一定是颠覆机器学习圈的重要成果。又回到了熟悉的话题:要想入行,还得看高引用经典论文。这里整合了2012年到2016年的高引TOP 100论文,引用量要求随着年份递减而递增,Hinton、Bengio、何恺明等大牛的论文都在其中,一起来看看吧:清单列表理解、泛化、迁移学习1、Distilling the knowledge in a neural ne...

2020-07-19 19:28:36 69

原创 《特征工程》知识框架

特征工程checklist

2020-07-16 19:10:48 73

转载 【转】做ML项目,自查清单帮你理清思路

原文链接:https://towardsdatascience.com/task-cheatsheet-for-almost-every-machine-learning-project-d0946861c6d0【注:与我之前整理的sklearn 快速建模check list 异曲同工】任何科研项目都是系统性的,机器学习项目也不例外,它包含一系列大大小小、或繁或简的要素和组件,如讨论、准备工作、提出问题、模型构建和优化调整等。在这种情况下,开发者很容易漏掉一些重要的东西。八步完成 ML ..

2020-07-14 05:36:31 77

转载 【转】【较全的CTR模型概览】 推荐算法——CTR预估模型

知乎文章 : 推荐算法——CTR预估模型CTR预估模型可以广泛应用于个性化推荐、信息检索、在线广告等领域,用来学习和预测用户的反馈,用户的反馈主要有点击、收藏、购买等。数据CTR预估模型的特征数据往往包含多个特征,这些特征会根据其自身特点被编译成one-hot编码,然后将多个特征对应的编码向量链接在一起构成特征向量。高维、稀疏、以及多类别是输入给CTR预估模型的特征数据的典型特点。Embedding 表示又叫Distributed representation,相对于高维稀疏的.

2020-07-12 16:49:46 591

转载 【转】基于知识图谱的推荐系统(KGRS)综述

以下文章来源于AI自然语言处理与知识图谱,作者Elesdspline作者信息Elesdspline目前从事NLP与知识图谱相关工作。导语本文是2020年针对知识图谱作为辅助信息用于推荐系统的一篇综述。知识图谱对于推荐系统不仅能够进行更精确的个性化推荐,而且对推荐也是具有可解释性的,有迹可循。本文汇总了近些年来知识图谱辅助推荐系统的一些研究工作,并按不同的方法进行划分类别(下图是我根据论文画出的大纲方法类别图);除此之外,汇总了不同场景下的知识图谱数据集,涵盖7个场景;最后阐述...

2020-07-09 08:35:35 2129 1

原创 《Sklearn机器学习实用指南》笔记

Sklearn机器学习实用指南

2020-07-07 06:08:43 82

原创 Sklearn快速建模cheat sheet

机器学习项目中,快速使用Sklearn于建模实践的cheat sheet

2020-07-06 05:42:52 102

原创 《吴恩达机器学习》笔记

吴恩达机器学习笔记整理

2020-06-19 04:30:34 80

原创 项量《推荐系统实战》笔记

推荐系统知识框架梳理

2020-06-13 05:37:06 128

原创 《Python基础知识框架》笔记

Python基础知识框架梳理

2020-06-11 01:12:32 242

转载 转载-从ReLU到GELU,一文概览神经网络的激活函数

选自mlfromscratch作者:Casper Hansen机器之心编译在计算每一层的激活值时,我们要用到激活函数,之后才能确定这些激活值究竟是多少。根据每一层前面的激活、权重和偏置,我们要为下一层的每个激活计算一个值。但在将该值发送给下一层之前,我们要使用一个激活函数对这个输出进行缩放。本文将介绍不同的激活函数。在阅读本文之前,你可以阅读我前一篇介绍神经网络中前向传播和反向传播的文章,其中已经简单地提及过激活函数,但还未介绍其实际所做的事情。本文的内容将建立在你已了解前一篇文章.

2020-05-13 22:00:52 811

原创 《HIVE使用指南》笔记

近期整理了工作中常使用的HQL,结合《HIVE编程指南》这本书做了汇总梳理,希望给将要踏入大数据分析行业的同学们作为参考手册使用,帮助大家尽快上手熟悉HQL。对于常用的命令、函数和功能,我基本从#含义、#用法、#优化、#注意四个方面做整理和备注。HIveQL的使用知识点框架如导图,先看知识导图再详细深入知识点,会对HQL的使用和理解有帮助。一、执行HIVE查询#用法hi...

2019-07-15 18:15:15 702

原创 Scala常用小处理方法汇总

本文介绍case语法与match 、map结合使用完成业务中常见的分情况匹配或分情况讨论的场景问题。1、match ...case ...2、map ...case ...

2021-09-08 23:19:31 5

原创 Scala多线程之任务的异同、同步执行实践

近期使用Spark开发ML机器学习模型的时候,其中有一个部分需要交替搜索最优参数。待搜索的参数空间有上万维,如果参数搜索串行执行,那么上千次的迭代计算大约需要10个小时,对于线上部署的模型是万万不可取的。考虑到参数搜索部分的每次的计算量并不大,只是需要重复上万次,有一些迭代的搜索计算是不相互依赖的,可以并行计算。那么就考虑使用多线程的思想,并行执行一些计算任务。因为参数的更新需要等这些并行的计算任务都完成后 取他们计算结果汇总后的最大值,所以需要的是同步执行,即需要block阻塞。如果将多线

2021-09-02 01:07:33 18

原创 使用scala做二元分类模型的评价

1、假设我们有一个训练好的二元分类模型tvsFitted,我们看下能得到这个模型的哪些指标来评价这个模型的好坏。 //fit val tvsFitted = tvs.fit(trainData)2、模型训练结束后,使用summary来获取评价指标 //best model summary 获取训练时最优模型的评价指标 import org.apache.spark.ml.PipelineModel //获取最优模型 val trainedPipe

2021-08-29 21:05:28 6

翻译 梯度下降优化器概览

写在前面:翻译自经典的梯度下降法的总结文章An overview of gradient descent optimization algorithms

2021-08-08 18:38:15 27

转载 特征工程-处理样本不均衡问题

1、处理样本不均衡问题--上采样、下采样训练集中各个类别的样本的特征分布不一致的问题,所以这里我们一起讲。    我们做分类算法训练时,如果训练集里的各个类别的样本数量不是大约相同的比例,就需要处理样本不平衡问题。也许你会说,不处理会怎么样呢?如果不处理,那么拟合出来的模型对于训练集中少样本的类别泛化能力会很差。举个例子,我们是一个二分类问题,如果训练集里A类别样本占90%,B类别样本占10%。 而测试集里A类别样本占50%, B类别样本占50%, 如果不考虑类别不平衡问题,训练出来的模型对于类别B

2021-08-08 18:04:44 24

转载 【转】特征工程之特征选择

写在前面:转自博客园的一篇文章特征工程之特征选择写的挺好的。特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样是确定的步骤,更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。本文关注于特征选择部分。后面还有两篇会关注于特征表达和特征预处理。1. 特征的来源    在做数据分析的时候,特征的来源一般有两块,一块是业务已经整理好各种特征数据,我们需要去找出适合我们问题需要的特征;另一块是我们从业务特征中自己去寻找高级数据特征。我们就针对这两部..

2021-08-08 16:51:02 13

转载 Scala中的容易混淆的符号->和 <- 和=>比较

写在前面:对于初学者来说,这几种符号实在太容易让人混淆了,还是有必要整理起来,相互比较下,对各符号的功能用途有了更深入的了解后自然就轻松了。参考文章:Scala中的 -> 与 <-以及=>Scala中"=>"的使用小结1、概括<- 只会出现在for循环里面-> 只会出现在Map里的key->value映射时=> 虽然出现的场景有四种,但背后代表的含义是统一的,即转化,从一种类型变成另一种类型。不管是用在函数、匿名函数,或是用在match匹配中,...

2021-08-08 08:00:52 14

转载 深度学习中的梯度消失、梯度爆炸问题

写在前面:有些博主对这个问题的解释很好,这里也做了参考:详解机器学习中的梯度消失、爆炸原因及其解决方法1、什么是梯度消失、梯度爆炸2、为什么会发生梯度消失、梯度爆炸3、梯度消失、梯度爆炸在深度学习、机器学习模型训练中的表现形式4、在模型中快速定位梯度消失、梯度爆炸问题5、梯度消失、梯度爆炸问题的解决方法6、总结...

2021-08-07 19:57:03 18

转载 Spark处理数据倾斜问题

写在前面:有博主的文章写的很好,很详细,推荐!参考:Spark如何处理数据倾斜(甚好,甚详细,很有逻辑,强推!) spark数据倾斜解决方案汇总1、什么是数据倾斜在执行shuffle操作的时候,数据是按照key对每行数据进行拉取、聚合等操作的。同一个key的数据Row,一定是分配到一个task中进行处理的。当大量相同key的数据被partition分配到同一个分区里时,就会发生数据倾斜问题。例子: 有数据行共是90万,可能某个key对应了88万数据,这88万个数...

2021-08-07 19:20:32 18

原创 Scala使用ALS模型做推荐

1、代码import org.apache.spark.sql.SparkSessionimport toby.gao.config.modelConfig/** * scala - recommendation 推荐系统 * package : org.apache.spark.ml.recommendation * 方法: ALS 、 ALSModel 交替最小二乘法 */object example28 { def main(args: Array[String]):

2021-08-05 17:47:21 23

原创 使用scala做机器学习模型主要步骤示例

本文介绍使用scala做机器学习模型的一个主要步骤示例。这里主要列了些基本环节,可以在此基础上进行扩充。object mlExample { def main(args: Array[String]): Unit = { val spark = SparkSession.builder() .appName("TobyGao") .enableHiveSupport() .getOrCreate() val modelPath = "/user/

2021-08-04 22:30:58 691

原创 使用Scala做特征工程常用方法

1、为后面的代码示例准备下数据 val modelPath = "/user/gaoToby/model_saved" val dataPath = "/user/gaoToby/ml_data" //1-1 load data // in Scala val sales = spark.read.format("csv") .option("header", "true") .option("inferSchema", "true")

2021-08-04 21:04:38 32

原创 记2021-07-30日算法岗面试经历

这次面试的公司是BAT中的一家,岗位职责主要是做推荐和用户画像。推荐的方向主要是地点推荐、出行推荐等。是哪家公司,大家可以猜一猜?这里记录下面试过程的主要环节,和被问到的一些问题。好好准备面试,早日拿到心仪的offer!加油!面试的环节基本都是这样的:自我介绍,大约2min 项目经历询问,穿插着技术知识点的考察, 大约30min 其他非项目中,但面试公司需要用到的知识点的考察,大约10min 代码笔试或口试,大约15-25min 向面试官提公司、职位等问题,大约3-5min整场面试下来

2021-07-30 18:45:25 16

原创 IDEA使用Maven创建Scala模块

1、IDEA -> File -> New -> Module 使用IDEA创建一个新的Module2、从现有的结构中创建3、设置Module名字、GroupId、SNAPSHOT版本4、选择Maven版本5、配置POM文件,添加依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xm...

2021-07-26 23:31:36 46 1

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除