自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 资源 (1)
  • 收藏
  • 关注

转载 决策树

分类算法之决策树(Decision tree)      在前面两篇文章中,分别介绍和讨论了朴素贝叶斯分类与贝叶斯网络两种分类算法。这两种算法都以贝叶斯定理为基础,可以对分类及决策问题进行概率推断。在这一篇文章中,

2017-12-04 16:50:04 519

转载 Spark性能优化指南——基础篇 (转自美团)

Spark性能优化指南——基础篇 前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经

2017-12-04 15:32:01 463

转载 机器学习-KMeans聚类 K值以及初始类簇中心点的选取

机器学习-KMeans聚类 K值以及初始类簇中心点的选取 - 潘的博客 - 博客园

2017-12-03 20:29:01 1203

转载 机器学习中的数据清洗与特征处理综述(转)

转自:https://tech.meituan.com/machinelearning-data-feature-process.html 背景 随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘,不仅能给美团业务发展方向提供决策支持,也为业务的迭代指明了方向。目前在美团的团购系统中大量地应用到了机器学习和数据

2017-11-29 10:39:55 564

转载 特征工程

使用sklearn做单机特征工程

2017-11-27 21:06:17 220

转载 Spark性能优化指南——高级篇 (转自美团)

转自:https://tech.meituan.com/spark-tuning-pro.html 前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能

2017-11-23 10:20:18 461

原创 PostgreSQL 窗口函数复习笔记

在总结hive之前特地回去复习了一下,以前PostgreSQL的窗口函数(MySQL目前还没有支持),以下基于版本9.3实验。我们都知道在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的.但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数.在深入研究Over

2017-11-02 15:09:47 2107 1

原创 spark 常用算子 详解

Spark算子可以分成两大类: 1.Transformation类算子 2.Action类算子。 转换(转化操作)算子,这类转化操作为懒执行,不会触发提交作业,从而也不会处理中间过程。Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。 行动算子,这类算子会触发SparkC

2017-10-05 17:00:42 3044

原创 spark 算子combineByKey 详解

combineByKey 作为spark 的核心算子之一,有必要详细了解。reduceByKey 和groupByKey 等健值对算子底层都实现该算子。

2017-10-05 12:22:57 690

原创 数据库字段数据(昵称)排序,规则: 数字>英文字母>汉字首字母 兼容简繁体排序

数据库字段数据(昵称)排序,规则: 数字>英文字母>汉字首字母 兼容简繁体排序 在日常运用中我们经常会遇到要对数据进行排序,特别是对昵称的排序。最近被要求对昵称排序,刚拿到手的时候开始还觉得挺简单的,因为数据库有order by ,但实际情况不仅此而已,具体如下:(环境:win7_64 , postgresql9.4,UTF8)创建测试用表:create table u

2016-04-21 14:24:13 21443

mapreduce 设计模式

书中主要介绍编程模式,即如何利用MapReduce框架解决一类问题,重在提供解决问题的方法和思路。作者花大量篇幅介绍各种模式的原理及实现机制,并给出相应的应用实例,让读者对每种模式能有更直观的理解。  

2017-08-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除