java实现两个word文件进行比较
比较两个word内容将不一样的地方标记出来
ljq01azakaban2.5.0.zip
azkaban-executor-server-2.5.0.tar.gz、azkaban-sql-script-2.5.0.tar.gz、azkaban-web-server-2.5.0.tar.gz、mysql-libs.zip
Spark学习源码
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
SparkStreaming练习源码
随着大数据的快速发展,业务场景越来越复杂,离线式的批处理框架 MapReduce 已经不能满足业务,大量的场景需要实时的数据处理结果来进行分析,决策。例如实时的用户推荐,在 618 这样的刺激环境下普通历史数据的推荐已经不能满足场景,就需要采集前分钟,甚至式前几秒的数据进行分析。实时计算适用于这种对历史数据依赖不强,短时间内变化较大的数据。用户行为分析,舆情分析,等等不断随环境和时间实时变化的数据都可能用到实时计算。
scala与spark基础
本资源收集了scala与大数据spark的基础的学习笔记,有兴趣的同学可以下载学习
redis数据库的练习案例API
本案例包含了redis的string、set、list、sort、hash、sparkstreaming、等操作。实现模拟购物车、爬虫、商品从浏览到下单占比、排名、商品销售排名等实现。
hive微博运动项目
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
GitHub、git的使用(全)
gitHub是一个面向开源及私有软件项目的托管平台,因为只支持git 作为唯一的版本库格式进行托管,故名gitHub。
gitHub于2008年4月10日正式上线,除了git代码仓库托管及基本的 Web管理界面以外,还提供了订阅、讨论组、文本渲染、在线文件编辑器、协作图谱(报表)、代码片段分享(Gist)等功能。目前,其注册用户已经超过350万,托管版本数量也是非常之多,其中不乏知名开源项目 Ruby on Rails、jQuery、python 等。
基于hadoop的电信客服数据分析+文档
本项目是基于hadop的对用户通话记录进行分析的大数据项目,统计用户每年或者每个月的通话记录情况,并做结果分析,最后将数据进行可视化。
SparkStreaming
随着大数据的快速发展,业务场景越来越复杂,离线式的批处理框架 MapReduce 已经不能满足业务,大量的场景需要实时的数据处理结果来进行分析,决策。例如实时的用户推荐,在 618 这样的刺激环境下普通历史数据的推荐已经不能满足场景,就需要采集前分钟,甚至式前几秒的数据进行分析。实时计算适用于这种对历史数据依赖不强,短时间内变化较大的数据。用户行为分析,舆情分析,等等不断随环境和时间实时变化的数据都可能用到实时计算。
hadoop基础知识
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。
基于ssm框架的企业薪资管理系统
ssm框架是当下最流行的web框架,本项目整合了ssm框架,实现财务管理。
GitHub、git的使用
Git代码托管工具,以及GitHub的使用,包括怎么将Eclipse的程序上传github上
Echarts可视化工具的使用案例(idea)
Echart可视化工具的简单实用,本文章采用idea开发环境进行案例实施,运用到javaEE、ajax、serverlet技术