自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1)
  • 资源 (14)
  • 收藏
  • 关注

原创 scala中sortBy与sortWith区别

(1)Scala中sortBy是以方法的形式存在的,并且是作用在Array或List集合排序上,并且这个sortBy默认只能升序,除非实现隐式转换或调用reverse方法才能实现降序。 (2)sortWith可以通过制定规则进行升降序排序。 val mapvalues2: RDD[(String, List[(String, Int)])] = groupbykey.mapValues(x=>x.toList.sortWith(_._2>_._2).take(3)) ...

2020-06-29 10:34:30 1522

java实现两个word文件进行比较

比较两个word内容将不一样的地方标记出来

2021-04-30

ljq01azakaban2.5.0.zip

azkaban-executor-server-2.5.0.tar.gz、azkaban-sql-script-2.5.0.tar.gz、azkaban-web-server-2.5.0.tar.gz、mysql-libs.zip

2021-02-24

Spark学习源码

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

2019-01-05

SparkStreaming练习源码

随着大数据的快速发展,业务场景越来越复杂,离线式的批处理框架 MapReduce 已经不能满足业务,大量的场景需要实时的数据处理结果来进行分析,决策。例如实时的用户推荐,在 618 这样的刺激环境下普通历史数据的推荐已经不能满足场景,就需要采集前分钟,甚至式前几秒的数据进行分析。实时计算适用于这种对历史数据依赖不强,短时间内变化较大的数据。用户行为分析,舆情分析,等等不断随环境和时间实时变化的数据都可能用到实时计算。

2019-01-05

scala与spark基础

本资源收集了scala与大数据spark的基础的学习笔记,有兴趣的同学可以下载学习

2019-01-03

redis数据库的练习案例API

本案例包含了redis的string、set、list、sort、hash、sparkstreaming、等操作。实现模拟购物车、爬虫、商品从浏览到下单占比、排名、商品销售排名等实现。

2018-12-27

hive微博运动项目

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

2018-12-18

GitHub、git的使用(全)

gitHub是一个面向开源及私有软件项目的托管平台,因为只支持git 作为唯一的版本库格式进行托管,故名gitHub。 gitHub于2008年4月10日正式上线,除了git代码仓库托管及基本的 Web管理界面以外,还提供了订阅、讨论组、文本渲染、在线文件编辑器、协作图谱(报表)、代码片段分享(Gist)等功能。目前,其注册用户已经超过350万,托管版本数量也是非常之多,其中不乏知名开源项目 Ruby on Rails、jQuery、python 等。

2018-12-12

基于hadoop的电信客服数据分析+文档

本项目是基于hadop的对用户通话记录进行分析的大数据项目,统计用户每年或者每个月的通话记录情况,并做结果分析,最后将数据进行可视化。

2018-12-12

SparkStreaming

随着大数据的快速发展,业务场景越来越复杂,离线式的批处理框架 MapReduce 已经不能满足业务,大量的场景需要实时的数据处理结果来进行分析,决策。例如实时的用户推荐,在 618 这样的刺激环境下普通历史数据的推荐已经不能满足场景,就需要采集前分钟,甚至式前几秒的数据进行分析。实时计算适用于这种对历史数据依赖不强,短时间内变化较大的数据。用户行为分析,舆情分析,等等不断随环境和时间实时变化的数据都可能用到实时计算。

2018-11-21

hadoop基础知识

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。

2018-11-17

基于ssm框架的企业薪资管理系统

ssm框架是当下最流行的web框架,本项目整合了ssm框架,实现财务管理。

2018-11-13

GitHub、git的使用

Git代码托管工具,以及GitHub的使用,包括怎么将Eclipse的程序上传github上

2018-11-13

Echarts可视化工具的使用案例(idea)

Echart可视化工具的简单实用,本文章采用idea开发环境进行案例实施,运用到javaEE、ajax、serverlet技术

2018-11-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除