自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 资源 (17)
  • 收藏
  • 关注

原创 经典排序算法

如需转载,请注明出处。 个人专栏见:https://github.com/alphaplato/Cplusplus/tree/master/SortAlgorithm 排序算法是计算常用的算法之一,本项目主要解决排序算法原理与实现问题。 ## 目录 1、堆排序 2、快速排序 3、归并排序 ## 内容 ### 1、堆排序 > 1、堆排序需要用二叉树数据结构实现吗? > 不...

2019-05-03 23:41:44 100

原创 动态规划经典问题

如需转载,请注明出处。 个人代码专栏见:https://github.com/alphaplato/Cplusplus/tree/master/DynamicProgram 动态规划问题是计算机编程中经常遇到的一类问题,尽管作为标准的算法工程师,比如语音识别、nlp等领域的工程师,并不经常遇到动态规划的问题,但是作为计算机工程师,或者说编程从业者却是一类需要重点关注的问题。至少有一点,互...

2019-05-03 23:18:57 306

原创 makefile编写相关符号及命令说明

1、$@ $^ 含义 例: main:main.omytool1.o mytool2.o gcc-o $@ $^   $@ 表示目标文件,如 main, $^表示依赖文件,如main.o mytool1.o mytool2.o。 2、: 含义 例: name:name1 name2 command   :表示依次跳转,执行相应标签或目标,比如上例,先跳转

2017-11-29 17:21:34 181

原创 spark scala 数据处理程序

1、kill任务        hadoop job-kill (job_num)        yarn application -kill (application_num)2、提交任务样例如下:        $SUBMIT--class $APP \        --masteryarn \        --driver-memory 1G \         --executor-m...

2017-11-16 10:09:58 941

LSTM训练过程[英文版]

LSTM(Long Short-Term Memory)是长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM 已经在科技领域有了多种应用。基于 LSTM 的系统可以学习翻译语言、控制机器人、图像分析、文档摘要、语音识别图像识别、手写识别、控制聊天机器人、预测疾病、点击率和股票、合成音乐等等任务。

2017-11-21

HadoopSpark大数据处理技巧[中文版][高清]

《数据算法:Hadoop/Spark大数据处理技巧》介绍了很多基本设计模式、优化技术和数据挖掘及机器学习解决方案,以解决生物信息学、基因组学、统计和社交网络分析等领域的很多问题。这还概要介绍了MapReduce、Hadoop和Spark。

2017-11-01

跟我一起写Makefile[陈皓]

make是一个命令工具,它解释Makefile 中的指令(应该说是规则)。在Makefile文件中描述了整个工程所有文件的编译顺序、编译规则。Makefile 有自己的书写格式、关键字、函数。像C 语言有自己的格式、关键字和函数一样。而且在Makefile 中可以使用系统shell所提供的任何命令来完成想要的工作。Makefile(在其它的系统上可能是另外的文件名)在绝大多数的IDE 开发环境中都在使用,已经成为一种工程的编译方法。

2017-10-26

Spark快速大数据分析[高清版]

本书由 Spark 开发者及核心成员共同打造,讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具——Spark,它带领读者快速掌握用 Spark 收集、计算、简化和保存海量数据的方法,学会交互、迭代和增量式分析,解决分区、数据本地化和自定义序列化等问题。

2017-10-26

Spark高级数据分析[高清版]

本书是使用Spark进行大规模数据分析的实战宝典,由著名大数据公司Cloudera的数据科学家撰写。四位作者首先结合数据科学和大数据分析的广阔背景讲解了Spark,然后介绍了用Spark和Scala进行数据处理的基础知识,接着讨论了如何将Spark用于机器学习,同时介绍了常见应用中几个最常用的算法。此外还收集了一些更加新颖的应用,比如通过文本隐含语义关系来查询Wikipedia或分析基因数据。

2017-10-26

SPARK MLLIB机器学习 [黄美灵著][高清]

《Spark MLlib机器学习:算法、源码及实战详解》中本着循序渐进的原则,首先解析MLlib的底层实现基础:数据操作及矩阵向量计算操作,该部分是MLlib实现的基础;接着对各个机器学习算法的理论知识进行讲解,并且解析机器学习算法如何在MLlib中实现分布式计算;然后对MLlib源码进行详细的讲解;最后进行MLlib实例的讲解。相信通过《Spark MLlib机器学习:算法、源码及实战详解》的学习,读者可全面掌握Spark MLlib机器学习,能够进行MLlib实战、MLlib定制开发等。

2017-10-26

Scala编程完整版[高清]

Scala是一门多范式的编程语言,一种类似java的编程语言,设计初衷是实现可伸缩的语言 、并集成面向对象编程和函数式编程的各种特性。

2017-10-26

统计学习方法[李航著][高清版]

本书全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、em算法、隐马尔可夫模型和条件随机场等。除第1章概论和最后一章总结外,每章介绍一种方法。叙述从具体问题或实例入手,由浅入深,阐明思路,给出必要的数学推导,便于读者掌握统计学习方法的实质,学会运用。为满足读者进一步学习的需要,书中还介绍了一些相关研究,给出了少量习题,列出了主要参考文献。《统计学习方法》是统计学习及相关课程的教学参考书,适用于高等院校文本数据挖掘、信息检索及自然语言处理等专业的大学生、研究生,也可供从事计算机应用相关专业的研发人员参考。

2017-10-23

机器学习实战[高清][中文+英文+python代码]

本资料包括《机器学习实战》中英文版,主要介绍机器学习基础,以及如何利用算法进行分类,并逐步介绍了多种经典的监督学习算法,如k近邻算法、朴素贝叶斯算法、Logistic回归算法、支持向量机、AdaBoost集成方法、基于树的回归算法和分类回归树(CART)算法等。第三部分则重点介绍无监督学习及其一些主要算法:k均值聚类算法、Apriori算法、FP-Growth算法等。同时,附带对应章节的python代码及实验数据。

2017-10-19

Factorization Machines 学习笔记

Factorization Machines(简称 FM)的算法,它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景;2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍,并对其训练算法 — 随机梯度下降(SGD)法和交替最小二乘(ALS)法进行详细推导。

2017-10-11

word2vec中的数学原理详解

word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,本文作者也成为了他们中的一员。本文作者在读完代码后,觉得收获颇多,于是整理成文,给有需要的朋友参考。

2017-10-11

LDA数学八卦

在 Machine Learning 中,LDA 是两个常用模型的简称: Linear Discriminant Analysis 和 Latent Dirichlet Allocation,在这篇文章中我们主要八卦的是后者。LDA 是一个在文本建模中很著名的模型,类似于 SVD, PLSA 等模型, 可以用于浅层语义分析,在文本语义分析中是一个很有用的模型。很不幸的是,这个模型中涉及的数学知识有点多,包括 Gamma 函数, Dirichlet 分布, Dirichlet-Multinomial 共轭, Gibbs Sampling,Variational Inference, 贝叶斯文本建模,PLSA 建模, 以及 LDA 文本建模。 这篇文章的主要目标,就是科普在学习理解LDA 模型中,需要了解的一些重要的数学知识。预设的读者是做自然语言处理、机器学习、数据挖掘方向的工程师,要读懂这篇科普,需要的数学基础知识基本上不超过陈希孺先生的《概率论与数理统计》这本书。文章标题挂上“八卦”两字, 因为八卦意味着自由、不拘束、可以天马行空,细节处理上也难免有不严谨的地方;当然我也希望八卦是相对容易理解的,即便他是关于数学的八卦。

2017-10-10

A Gradient Boosting Machine

GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(generalization)较强的算法。近些年更因为被用于搜索排序的机器学习模型而引起大家关注。该资料较为详细地介绍了GBDT的源起,及GBM的相关内容,是一本技术人员与学生不可多得的参考资料。

2017-10-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除