大数据
文章平均质量分 55
Verycoldddd
这个作者很懒,什么都没留下…
展开
-
MapReduce处理公共自行车数据
利用Hadoop平台处理公共自行车数据,数据Excel表如下: Excel表中有一列duration表示自行车使用时间,利用MapReduce统计自行车使用时间为60s,120,180s以此类推的使用量。代码如下:Map端:package com.tyut.rcr;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.i原创 2016-10-17 19:18:36 · 1171 阅读 · 0 评论 -
Spark DataFrame创建与操作
添加依赖文件到Scala Maven工程 <dependency> <groupid>com.databricks</groupid> <artifactid>spark-csv_2.10</artifactid> <version>1.3.0</version> </dependency> 从csv文件创建DataFrameimport com.dat原创 2016-11-25 10:32:33 · 2567 阅读 · 0 评论 -
Spark与Pandas中DataFrame的对比
PandasSpark工作方式单机single machine tool,没有并行机制parallelism不支持Hadoop,处理大量数据有瓶颈分布式并行计算框架,内建并行机制parallelism,所有的数据和操作自动并行分布在各个集群结点上。以处理in-memory数据的方式处理distributed数据。支持Hadoop,能处理大量数据转载 2016-12-06 19:50:51 · 1418 阅读 · 0 评论 -
解决Namenode is in safe mode方法
bin/hadoop dfsadmin -safemode leave 即可离开安全模式 其他参数: enter —-进入安全模式 get —-返回安全模式是否开启的信息 wait —-一直等到安全模式结束原创 2017-04-24 21:14:40 · 731 阅读 · 0 评论