- 博客(7)
- 资源 (31)
- 收藏
- 关注
原创 Flink集群部署详细步骤
1.下载Flink压缩包下载地址:http://flink.apache.org/downloads.html。我集群环境是hadoop2.6,Scala2.11版本的,所以下载的是:flink-1.3.1-bin-hadoop26-scala_2.11.tgz。2.解压上传至五个节点的相同目录,执行如下命令解压: tar xzf flink-1.3.1-bin-ha...
2018-07-26 11:25:59 19369 4
转载 Intellij IDEA 14.1.4 Scala开发环境搭建
主要内容Intellij IDEA开发环境简介 Intellij IDEA Scala开发环境搭建 Intellij IDEA常见问题及解决方案 Intellij IDEA常用快捷键1. Intellij IDEA开发环境简介具体介绍请参见:http://baike.baidu.com/link?url=SBY93H3SPkmcmIOmZ8H60O1k4iVLgOmdqoKdGp9...
2018-07-24 10:20:38 219
转载 mapreduce,自定义排序,分区,分组实现按照年份升序排序,温度降序排序
自定义类: package myhadoop; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import org.apache.hadoop.io.WritableComparable; pu...
2018-07-17 11:57:11 821
转载 hbase基于solr配置二级索引
一.概述 Hbase适用于大表的存储,通过单一的RowKey查询虽然能快速查询,但是对于复杂查询,尤其分页、查询总数等,实现方案浪费计算资源,所以可以针对hbase数据创建二级索引(Hbase Secondary Indexing),供复杂查询使用。 Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语...
2018-07-17 09:37:37 416
原创 数据分析案例之电影推荐
前言通过案例来学习数据分析的思路和练习相应分析工具,往往最有效的。本文用julia来进行全流程的探索和分析,以期达到既掌握分析思路,又练习了这一新兴的数据科学利器。同时,个性化推荐是个太大的topic,涉及的理论方法和实践非常多,本文有些地方会详细展开,有些则一笔带过。如无特殊说明,本文中所使用的code均为julia代码,IDE环境为JuliaPro.问题阐述个性化推荐是当今网络世界上普遍存在的...
2018-07-13 10:12:28 4528
转载 shell和javaAPI两种方式创建hbase表并预分区
在hbase里面,如果我们建表不预分区,那么一个表的数据都会被一个region处理,如果数据过多就会执行region的split,如果数据量很大这样会很费性能,所以最好我们先根据业务的数据量在建表的时候就能指定region个数并且进行预先分区,下面说说两种创建表并且建立预分区的方法。1.shell createTable并预分区:hbase(main):002:0> create 'spli...
2018-07-12 17:37:53 1007
转载 Waterdrop帮你快速玩转Spark数据处理
Databricks 开源的 Apache Spark 对于分布式数据处理来说是一个伟大的进步。我们在使用 Spark 时发现了很多可圈可点之处,我们在此与大家分享一下我们在简化Spark使用和编程以及加快Spark在生产环境落地上做的一些努力。一个Spark Streaming读取Kafka的案例以一个线上案例为例,介绍如何使用Spark Streaming统计Nginx后端日志中每个域名下每个...
2018-07-12 09:53:22 1272
hadoop-eclipse-plugin
2017-10-23
hadoop_dll_winutil_2.7.1.zip
2017-10-20
机器学习实战
2017-10-11
python基础教程
2017-10-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人