自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 在Scala中,为什么函数的参数类型是逆变的,而函数的返回值协变的

在Scala中,为什么函数的参数类型是逆变的,而函数的返回值协变的概念一首先,需要明确一点的就是Liskov替换原则。以一段java代码为例,如果一个方法的参数它的类型是C,那么在调用这个方法的时候,class C { public void m() { System.out.println("m"); }}class CSub extends C { @Ove

2017-03-20 01:01:39 978 2

原创 spark移动平均

需求:计算在一个特定时间窗口内各个日期不同股票代码的不同收盘价的移动平均数“移动”的意思就是随着新的时间序列数据的到来,要不断的重新计算这个平均值,由于会删除最早的值同时增加新的值,这个平均值会相应的“移动” 股票代码 时间 收盘价 移动平均 Apple 2015-12-11 108.0 (108) / 1 = 108.0 Apple 2015-12-13

2017-02-27 14:55:36 1482

原创 spark计算单词的相对频率

需求:如果定义一个单词的邻域为这个单词的前两个单词和后两个单词,求的是每个邻域单词占每个单词邻域的比重如:w01,w02,w03,w04,w05邻域表: 单词 邻域 w01 w02,w03 w02 w01,w03,w04 w03 w01,w02,w03,w05 w04 w02,w03,w05 w05 w03,w04那么对于 w01而言,w02和 w03

2017-02-27 01:37:05 1208

原创 spark左外连接

左外连接三种方式要求:查找已售出商品唯一位置数(售出商品出现位置的次数)数据:用户表 users.tsvuser_id location_idu1 UTu2 GAu3 CAu4 CAu5 GA交易信息 transactions.tsvtrasaction_id product_id user_id quantity amount

2017-02-26 20:15:15 2305

原创 spark二次排序

一般的二次排序,可以参考https://www.iteblog.com/archives/1819.html这篇文章,但是他的这种方式有问题。在这块代码:item._2.toList.sortWith(_.toInt<_.toInt)如果数据量非常大的话,会全部加在到内存中,容易造成内存溢出。在spark中可以使用repartitionAndSortWithinPartitions这个算子,它会一边

2017-02-23 14:44:13 970

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除