Snail_Moved_Slowly-CSDN博客

转载 L2R 入门了解

前言：工作中要用到rank，实现使用point wise，接下来升级可能会用到pair wise，先对l2r算法做个简单的了解。学习资料：排序学习实践---ranknet方法【排序学习】基于Pairwise和Listwise的排序学习...

2018-06-03 18:53:38 2014

转载算法-背包

算法是码农能力强弱最直接的一个体现，好好学算法吧，动态规划中经典的问题，背包问题链接：背包。其实01背包是所有背包的基础。

2018-05-13 17:02:21 285

1、partition数目spark的输入可能以多个文件的形式存储在HDFS上，每个File都包含了很多块，称为Block。当Spark读取这些文件作为输入时，会根据具体数据格式对应的InputFormat进行解析，一般是将若干个Block合并成一个输入分片，称为InputSplit，注意InputSplit不能跨越文件。随后将为这些输入分片生成具体的Task。InputSplit与Task是一一...

2018-05-06 17:42:15 511

原创 Spark-使用总结-1

导语经过一段时间的学习，对spark的认识更深入了一些。有几个知识点一起再来学习一下。1、spark参数的理解spark.default.parallelism：该参数用于设置每个stage的默认task数量。spark.sql.shuffle.partitions：对于Spark SQL中的shuffle类语句，比如group by、join等，该参数代表了shuffle read task的并...

2018-04-21 11:55:21 416

原创 bp反向传播公式推导

反向传播公式，主要是链式法则，找了几篇博客，详细推导过程和示例计算都有。https://blog.csdn.net/qrlhl/article/details/50885527https://www.jianshu.com/p/408ab8177a53https://www.zybuluo.com/hanbingtao/note/476663

2018-04-15 23:21:15 383

原创 CNN公式推导举例

CNN公式推导本篇文章介绍了cnn的参数基本的计算过程，http://www.datakit.cn/blog/2016/03/23/bp_cnn.html，对于一些细节描述不是很清楚。但是对于参数的传播有例子加以说明。pooling层和卷积层的反向传播需要参考 http://manutdzou.github.io/2016/05/15/CNN-backpropagation.htm

2018-04-07 21:06:02 874

转载用户投票排名算法总结

其实这只能算是一个总结，一个读后感外带一点引申。《基于用户投票的排名算法》系列，作者：阮一峰。这个系列的文章确实写得很漂亮，层层深入，引人思考。作者blog：http://www.ruanyifeng.com/blog/1. 只有赞成票（1）单位时间内用户的投票数进行排名Delicious。实现：每小时统计一次次数，高的在前。优点：简单，确实能反映热度。缺点：不

2018-02-04 22:27:24 1341

转载机器学习-正则化

正则化（Regularization）机器学习中几乎都可以看到损失函数后面会添加一个额外项，常用的额外项一般有两种，一般英文称作ℓ1-norm，中文称作L1正则化和L2正则化，或者L1范数和L2范数。L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。对于线性回归模型，使用L1正则化的模型建叫做Lasso回归，使用L2正则化的模型叫做Ridge回归（岭

2018-01-28 22:55:29 310

转载机器学习-特征工程

目录1 特征工程是什么？2 数据预处理　　2.1 无量纲化　　　　2.1.1 标准化　　　　2.1.2 区间缩放法　　　　2.1.3 标准化与归一化的区别　　2.2 对定量特征二值化　　2.3 对定性特征哑编码　　2.4 缺失值计算　　2.5 数据变换　　2.6 回顾3 特征选择　　3.1 Filter　　　　3.1.1 方差选择法　　　　3.1.2 相关系数法　　　　3.1.3 卡方检验

2018-01-21 13:07:42 305

转载机器学习-simHash文本去重

有1亿个不重复的64位的01字符串，任意给出一个64位的01字符串f，如何快速从中找出与f汉明距离小于3的字符串？ 大规模网页的近似查重主要翻译自WWW07的Detecting Near Duplicates for Web CrawlingWWW上存在大量内容近似相同的网页，对搜索引擎而言，去除近似相同的网页可以提高检索效率、降低存储开销。当爬虫在抓取网页时必须很快能...

2018-01-14 16:34:41 1575

转载机器学习-EM算法

从最大似然到EM算法浅解zouxy09@qq.comhttp://blog.csdn.net/zouxy09 机器学习十大算法之一：EM算法。能评得上十大之一，让人听起来觉得挺NB的。什么是NB啊，我们一般说某个人很NB，是因为他能解决一些别人解决不了的问题。神为什么是神，因为神能做很多人做不了的事。那么EM算法能解决什么问题呢？或者说EM算法是因为什么而来到这个世界上，还吸引了那么多

2018-01-07 21:28:49 346

转载机器学习-贝叶斯分类

算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification)<div class="entry"> <div id="cnblogs_post_body" class="blogpost-body"><h1>0、写在前面的话</h1> 我个人一直很喜欢算法一类的东西，在我看来算法是人类智慧的精华，其中蕴含着无与伦比的美感。而每次将学过的算法

2018-01-07 20:06:45 415

转载机器学习--集成学习

机器学习 Adaboost

2017-12-24 21:44:40 435

转载机器学习--GDBT算法

GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)，是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力（generalization)较强的算法。近些年更因为被用于搜索排序的机器学习模型而引起大家关注。后记：发现

2017-12-24 21:34:52 3623

原创机器学习-SVM

机器学习常用算法

2017-12-24 17:08:48 438

原创深度学习--卷积神经网络工作原理

万能的知乎从知乎上看一篇文章，问题是卷积神经网络工作原理直观的解释，知乎大神用各种动图对卷积神经网络的训练做了介绍。YJango的回答最为精彩。奉上链接，希望你也能从这个回答中对卷积神经网络有更为确切的认识。https://www.zhihu.com/question/39022858/answer/194996805?utm_medium=social&utm_source=wechat_s

2017-12-17 21:49:02 2617

转载机器学习-多元高斯分布（异常检测）

异常检测机器学习多元高斯

2017-12-17 16:56:35 7577 2

原创机器学习-线性回归

背景机器学习所研究的主要内容，是关于在计算机上从数据中产生模型的算法，即学习算法。有了学习算法，我们把经验数据提供给它，它就能基于这些数据产生模型，在面对新的情况时，模型会给我们提供相应的判断。在本篇文章及其接下来的文章中不对算法做数学上的推断，如果想知道机器学习的数学推导过程，建议学习NG的机器学习算法公开课，参考笔记可以更好地理解。本篇的顺序是按照周志华的机器学习章节展开，对机器学习...

2017-12-10 21:44:26 497

原创深度学习CNN-基本概念

背景深度学习可谓是如火如荼，风头正盛。读研期间身边就有很多人在进行相关工作，工作之后发现在工业界也是相当受追捧。因此，自己也下定决心开始窥探一下深度学习的奥秘。总体结构从一个例子中先大体把握一下CNN的结构，有一个基本的认识。ImageNet LSVRC是一个图片分类的比赛，其训练集包括127W+张图片，验证集有5W张图片，测试集有15W张图片。本文截取2010年Alex Kriz

2017-12-03 20:55:37 686

原创 Spark-使用问题总结

前言通过前面两篇文章的学习，对大数据运用中遇到的问题基本可以解决，本篇文章再补充一些前面没有提到的问题和知识点，希望避免大家踩坑。map数目控制通过前面的文章对参数调优有了基本认识，这里再补充一点我在hadoop streaming中关于map数目控制的知识。通过参数控制使得每个map处理的数据量基本均衡，加快运行时间，避免出现因为数据量的不均衡导致的时间浪费。map数目默认情况下

2017-11-26 17:25:00 471

转载 Spark性能优化指南-高级篇

前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性

2017-11-26 11:01:36 392

转载 Spark性能优化指南-基础篇

本文转载自美团点评技术团队博客，原文地址：http://tech.meituan.com/spark-tuning-basic.html前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种

2017-11-26 10:34:46 354

原创新生活，新开始

从下周起，每周更新一篇技术相关类文章，作为自己的技术笔记，既能随时查阅，又能总结思考。

2017-11-05 21:15:29 189

Snail_Moved_Slowly的博客