大数据
文章平均质量分 79
iteye_7753
这个作者很懒,什么都没留下…
展开
-
Spark学习环境搭建-虚拟机版
计划2个月内能精通spark开发,今天起开始努力!1、环境准备 虚拟机采用visualbox,https://www.virtualbox.org 在上面搭建ubuntu server 集群,下载ubuntu server 光盘镜像,http://www.ubuntu.com/download/server 在visualbox上安装 ubuntu server...原创 2016-01-24 11:26:11 · 265 阅读 · 0 评论 -
Spark源码倒腾
本文演示spark源码在idea编辑器上编译和提交任务1、从网站上下载spark源码,在idea中 点击 VCS->CheckOut form Version Control->Git 把代码下载到本地 https://github.com/apache/spark 2、为了能让本地编译更快一些,设置父pom.xml 中加上oschi...原创 2016-02-15 21:09:51 · 109 阅读 · 0 评论 -
Spark 实战入门
使用spark分析sogou日志下载用户查询日志的精简版,完整版http://download.labs.sogou.com/dl/q.html 数据格式说明: 访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL 其中,用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值,即同一次使用浏览器输入的不同查询对应同一个用户ID...原创 2016-02-22 08:00:34 · 121 阅读 · 0 评论 -
hive初试
1:搭建hadoop和hive,mysql的环境,过程截图。 2:利用上节课的数据,建表并导入数据。3:最热门的查询词排行 top10 4:用户查询排行 top10 5:搜索结果排名第1,但是点击次序排在第2的数据有多少? 2:利用上节课的数据,建表并导入数据。数据格式说明: 访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\...原创 2016-02-29 08:35:35 · 182 阅读 · 0 评论 -
spark SQL 学习
1:通过Spark SQL 查询hive中的数据 要求提供操作截图。 利用第二节课的数据,统计每个地区的人数,并按人数排序2: 写一个简单的程序通过JDBC访问Spark SQL Thrift server能实现查询,要求过程和截图。 详见附件...原创 2016-03-07 00:09:25 · 212 阅读 · 0 评论 -
用spark分析tomcat日志
分析tomcat的日志读tomcat的日志文件,然后输出数据,写一个Streaming的统计程序1:要求统计TOP 100的 IP2:统计Top 50 页面PV3:统计浏览器的类型和版本...原创 2016-03-14 08:17:49 · 340 阅读 · 0 评论