1.01^365=31.78 (Lucene、ES、ELK开发交流群: 370734940)

Engineers are versatile minds who create links between science, technology, and society.

解决ES-Hadoop打包报错“Mkdirs failed to create /var/folders...”问题

一、报错问题 在mac下运行ES-Hadoop项目,报错如下: Bee:eshadoop bee$ hadoop jar target/eshadoop-1.0-SNAPSHOT-jar-with-dependencies.jar /work/blog.json Exception in th...

2018-05-21 13:08:43

阅读数:35

评论数:0

HDFS文件读写流程

一、HDFS体系结构HDFS作为分布式文件系统,使用的是master/slave体系结构,角色有三种: NameNode:为HDFS提供元数据服务,NameNode可以控制所有文件的操作,它会把所有的文件元数据存储在文件系统树中,文件信息在硬盘上保存成两个文件:命名空间镜像文件(fsimage)...

2017-12-11 19:47:33

阅读数:378

评论数:0

Spark机器学习环境搭建

一、Spark环境搭建1.1 下载Spark下载地址:http://spark.apache.org/downloads.html 下载完成后解压即可。 把spark的运行目录加到环境变量:#Spark Home export SPARK_HOME=/usr/local/Cellar/spar...

2017-10-11 12:03:35

阅读数:3238

评论数:2

MapReduce编程(七) 倒排索引构建

使用Lucene 6.0对文本进行中文分词,然后使用MapReduce构建倒排索引,统计文档频率和总的词项频率

2017-04-04 16:31:49

阅读数:2579

评论数:0

MapReduce编程(六) 从HDFS导入数据到Elasticsearch

Elasticsearch for Hadoop安装以及如何从HDFS导入数据到Elasticsearch

2017-04-01 19:26:20

阅读数:7755

评论数:6

MapReduce编程(五) 单表关联

MapReduce编程实现单表关联,挖掘爷孙关系 一、问题描述 下面给出一个child-parent的表格,要求挖掘其中的父子辈关系,给出祖孙辈关系的表格。

2017-03-31 17:41:00

阅读数:1464

评论数:0

MapReduce编程(四) 求均值

MapReduce编程统计学生成绩的平均值,StringTokenizer和Split的用法对比

2017-03-31 13:28:34

阅读数:1979

评论数:0

MapReduce编程(三) 排序

MapReduce编程之排序问题一、问题描述文件中存储了商品id和商品价格的信息,文件中每行2列,第一列文本类型代表商品id,第二列为double类型代表商品价格。数据格式如下

2017-03-31 11:10:34

阅读数:4913

评论数:1

MapReduce编程(二) 文件合并和去重

MapReduce编程实现文件合并和去重:对输入的多个文件进行合并,并剔除其中重复的内容,去重后的内容输出到一个文件中。

2017-03-30 23:59:27

阅读数:2656

评论数:0

MapReduce编程(一) Intellij Idea配置MapReduce编程环境

介绍如何在Intellij Idea中通过创建maven工程配置MapReduce的编程环境。

2017-03-30 20:37:22

阅读数:9464

评论数:1

[大数据]Hadoop 2.7.3 和Hbase 1.2.4安装教程

一机器环境 二配置SSH免密码登录 三安装Hadoop 273 1下载Hadoop 2运行Hadoop单机模式 3 Hadoop伪分布式模式 31修改hadoop-envsh 32修改core-sitexml 33修改mapred-sitexmltemplate 34修改hdfs-sitexml ...

2017-01-06 14:37:11

阅读数:7400

评论数:3

远程文件拷贝命令scp的用法

scp命令用途scp是secure copy的缩写,是Linux系统下的远程文件拷贝命令。核心通途有2个: 拷贝本机文件到远程服务器 拷贝远程服务器上的文件到本地 它使用ssh安全协议传输数据,具有和ssh一样的验证机制,从而安全的远程拷贝文件。scp命令格式scp [-1246BCpqrv] [...

2016-11-25 14:20:34

阅读数:1415

评论数:0

大数据基础之常用Linux命令

大数据实验环境一般为Linux,熟悉Linux操作非常有必要,总结常用Linux命令如下。1.cd命令进入文件夹:cd dirname 进入多级文件夹:cd /usr/local/Cellar 返回上层目录:cd ../ 返回上层的上层:cd ../../ 回到主文件夹cd 2.ls命令ls命令用...

2016-11-20 18:03:09

阅读数:3650

评论数:0

MapReduce编程实例

需求输入文件:文本文件 每行格式: <source> <destination> <time> 3个部分由空格隔开 其中source和destination为两个字符串,内部没有空格 time为一个浮点数,代表时间(秒为单位) 涵义:可以表示一次电话通话,...

2016-05-04 16:42:00

阅读数:2162

评论数:0

MapReduce编程模型

MapReduce/HadoopMapReduce是目前云计算中最广泛使用的计算模型,由Google于2004年提出,谷歌关于云计算有三篇著名的论文: 《Bigtable_A Distributed Storage System for Structured Data》 《MapReduce: S...

2016-04-26 13:29:12

阅读数:4042

评论数:0

[大数据]本地文件拷贝到hdfs

创建文件夹: hadoop fs -mkdir /work 拷贝: hadoop fs -put /Users/yp/Documents/test.txt /work 打开http://localhost:50070/: Utilities->browse the file sy...

2016-03-30 10:27:40

阅读数:5736

评论数:0

hadoop helloworld(wordcount)

一、安装hadoop发现在mac上安装hadoop有更快捷的方法,首先安装homebrew,homebrew是一个包管理工具,安装hadoop命令如下:brew install hadoop默认会安装在/usr/local/Cellar目录下。该目录默认为隐藏的,可以打开finder,依次:菜单栏...

2016-03-04 20:56:41

阅读数:841

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭