- 博客(5)
- 收藏
- 关注
原创 在Scala中,为什么函数的参数类型是逆变的,而函数的返回值协变的
在Scala中,为什么函数的参数类型是逆变的,而函数的返回值协变的概念一首先,需要明确一点的就是Liskov替换原则。以一段java代码为例,如果一个方法的参数它的类型是C,那么在调用这个方法的时候,class C { public void m() { System.out.println("m"); }}class CSub extends C { @Ove
2017-03-20 01:01:39 978 2
原创 spark移动平均
需求:计算在一个特定时间窗口内各个日期不同股票代码的不同收盘价的移动平均数“移动”的意思就是随着新的时间序列数据的到来,要不断的重新计算这个平均值,由于会删除最早的值同时增加新的值,这个平均值会相应的“移动” 股票代码 时间 收盘价 移动平均 Apple 2015-12-11 108.0 (108) / 1 = 108.0 Apple 2015-12-13
2017-02-27 14:55:36 1482
原创 spark计算单词的相对频率
需求:如果定义一个单词的邻域为这个单词的前两个单词和后两个单词,求的是每个邻域单词占每个单词邻域的比重如:w01,w02,w03,w04,w05邻域表: 单词 邻域 w01 w02,w03 w02 w01,w03,w04 w03 w01,w02,w03,w05 w04 w02,w03,w05 w05 w03,w04那么对于 w01而言,w02和 w03
2017-02-27 01:37:05 1208
原创 spark左外连接
左外连接三种方式要求:查找已售出商品唯一位置数(售出商品出现位置的次数)数据:用户表 users.tsvuser_id location_idu1 UTu2 GAu3 CAu4 CAu5 GA交易信息 transactions.tsvtrasaction_id product_id user_id quantity amount
2017-02-26 20:15:15 2305
原创 spark二次排序
一般的二次排序,可以参考https://www.iteblog.com/archives/1819.html这篇文章,但是他的这种方式有问题。在这块代码:item._2.toList.sortWith(_.toInt<_.toInt)如果数据量非常大的话,会全部加在到内存中,容易造成内存溢出。在spark中可以使用repartitionAndSortWithinPartitions这个算子,它会一边
2017-02-23 14:44:13 970
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人