2017年05月_0x12A2A7F

转载预测异常报警模型实践

一、前言外卖业务的快速发展对系统稳定性提出了更高的要求，每一次订单量大盘的异常波动，都需要做出及时的应对，以保证系统的整体稳定性。如何做出较为准确的波动预警，显得尤为重要。从时间上看，外卖订单量时间序列有两个明显的特征（如下图所示）：周期性。每天订单量的变化趋势都大致相同，午高峰和晚高峰订单量集中。实时性。当天的订单量可能会受天气等因素影响，呈现整体的上涨或下降。订单量

2017-05-09 16:22:22 11081

转载美团推荐算法实践

前言推荐系统并不是新鲜的事物，在很久之前就存在，但是推荐系统真正进入人们的视野，并且作为一个重要的模块存在于各个互联网公司，还是近几年的事情。随着互联网的深入发展，越来越多的信息在互联网上传播，产生了严重的信息过载。如果不采用一定的手段，用户很难从如此多的信息流中找到对自己有价值的信息。解决信息过载有几种手段：一种是搜索，当用户有了明确的信息需求意图后，将意图转换为几个简短的词

2017-05-09 14:56:39 665 1

转载基于机器学习方法的POI品类推荐算法

前言在美团商家数据中心（MDC），有超过100w的已校准审核的POI数据（我们一般将商家标示为POI，POI基础信息包括：门店名称、品类、电话、地址、坐标等）。如何使用这些已校准的POI数据，挖掘出有价值的信息，本文进行了一些尝试：利用机器学习方法，自动标注缺失品类的POI数据。例如，门店名称为“好再来牛肉拉面馆”的POI将自动标注“小吃”品类。机器学习解决问题的一般过程：本文

2017-05-09 14:46:13 578

转载美团DSP广告策略实践

前言近年来，在线广告在整个广告行业的比重越来越高。在线广告中实时竞价的广告由于其良好的转化效果，占有的比重逐年升高。DSP（Demand-Side Platform）[1]作为需求方平台，通过广告交易平台（AdExchange）[2]对每次曝光进行竞价尝试。对于AdExchange的每次竞价请求，DSP根据Cookie Mapping [3]或者设备信息，尝试把正在浏览媒体网站、App的用户映

2017-05-09 14:30:14 2208 1

转载 Spark在美团的实践

前言美团是数据驱动的互联网服务，用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志，这些日志数据将被汇总处理、分析、挖掘与学习，为美团的各种推荐、搜索系统甚至公司战略目标制定提供数据支持。大数据处理渗透到了美团各业务线的各种应用场景，选择合适、高效的数据处理引擎能够大大提高数据生产的效率，进而间接或直接提升相关团队的工作效率。美团最初的数据处理以Hive SQL为主，底层计算引擎

2017-05-09 13:57:12 842

转载 HDFS NameNode内存详解

前言《HDFS NameNode内存全景》中，我们从NameNode内部数据结构的视角，对它的内存全景及几个关键数据结构进行了简单解读，并结合实际场景介绍了NameNode可能遇到的问题，还有业界进行横向扩展方面的多种可借鉴解决方案。事实上，对NameNode实施横向扩展前，会面临常驻内存随数据规模持续增长的情况，为此需要经历不断调整NameNode内存的堆空间大小的过程，期间会遇到几

2017-05-09 11:40:26 1563 1

转载 HDFS NameNode内存全景

一、概述从整个HDFS系统架构上看，NameNode是其中最重要、最复杂也是最容易出现问题的地方，而且一旦NameNode出现故障，整个Hadoop集群就将处于不可服务的状态，同时随着数据规模和集群规模地持续增长，很多小量级时被隐藏的问题逐渐暴露出来。所以，从更高层次掌握NameNode的内部结构和运行机制尤其重要。除特别说明外，本文基于社区版本Hadoop-2.4.1[1][2]，虽然2.4

2017-05-09 11:31:54 467

转载 Java Hotspot G1 GC的一些关键技术

前言G1 GC，全称Garbage-First Garbage Collector，通过-XX:+UseG1GC参数来启用，作为体验版随着JDK 6u14版本面世，在JDK 7u4版本发行时被正式推出，相信熟悉JVM的同学们都不会对它感到陌生。在JDK 9中，G1被提议设置为默认垃圾收集器（JEP 248）。在官网中，是这样描述G1的：The Garbage-First (G1) coll

2017-05-09 11:20:50 584

转载 Bagging,Random Forests以及Boosting

前面讲到，决策树（决策树（Decision Tree））可以用来解决分类或回归问题，它们统称为分类回归树（Classification and Regression Tree,CART）。并且，分类回归树有一个显著的缺点，那就是对噪音十分敏感，稍微改变数据，树的形状很有可能发生较大的改变。为了防止分类回归树陷入过拟合，我们有一系列改善措施来提高树的性能，常见的有Bagging和Random

2017-05-01 11:59:30 1227

转载决策树（Decision Tree）

决策树算法是一种基于决策的预测算法，顾名思义，每一个决策相当于一棵树的枝干，而每个枝干都会导向一个决策结果。决策树其实可以分为分类树和回归树，分类树是指输出每个样本的类别，而回归树是指输出数值结果，这里我们只讨论分类树。在应用中，决策树通常是基于一套规则去将数据分门别类。在一个数据集中，决策树算法会利用每一个样本的属性变量，并确定哪一个属性是最重要的，然后给出一系列决策去最优地将数

2017-05-01 11:54:57 658

转载 K-Means集群算法

无论什么数据集，理论上都可以形成一定数量的集群。例如，党我们拿到学生成绩表时，我们可以把成绩分数划分为优（90分左右）、良（80分左右）、中（70分左右）、差（60分及以下）。再例如对于工人工资表，我们也可以把工人按照工资划分成一定数量的集群，每个集群一定是围绕某个工资水平的。甚至我们可以抓取所有微信公众文章，将文章标题映射为向量表示（假设没有那些标题党文章的话），我们就可

2017-05-01 11:51:36 3294

转载 K最近邻算法

设想你想了解一个陌生人的饮食风格，如果你对他所知无几，那么最容易想到的一个捷径就是看看他生存的周围人群的口味。但是如果你对他的信息知道更多，例如知道他的年龄、收入等，那么这个时候就最好从他周围的人群中去挑选与他年龄、收入相近的人的饮食风格，这样预测会更准确一点。这其中蕴含的算法就是最近邻算法。最近邻算法的思想很简单，”距离“相近的事物总会具有更多的共性。其中涉及的数学知识并不深厚。

2017-05-01 11:43:21 1455

转载随机梯度下降

梯度下降算法其实也很好理解，以简单的二元函数为例，如果我们想找到二元函数的极值，一般第一步我们是对该二元函数求导，然后令其为0，找出此时自变量的值，将该自变量代入函数式，即可求出该函数的极值。随机梯度下降算法是为了解决深度学习中多元目标函数的最优值问题，已经有很多该算法的变种算法。那么在深度学习中，针对实际问题，我们首先需要建立一个模型，然后确定一个目标函数。目标函数通常是网络输出

2017-05-01 11:39:02 5303

转载朴素贝叶斯（Naive Bayes）

2017-05-01 11:29:50 434

LW_ICE