Spark机器学习环境搭建

一、Spark环境搭建1.1 下载Spark下载地址:http://spark.apache.org/downloads.html 下载完成后解压即可。 把spark的运行目录加到环境变量:#Spark Home export SPARK_HOME=/usr/local/Cellar/spark-2.1.0-bin-hadoop2.7 export PATH=$PATH:$SPARK_HOME/...
阅读(1788) 评论(2)

MapReduce编程(七) 倒排索引构建

使用Lucene 6.0对文本进行中文分词,然后使用MapReduce构建倒排索引,统计文档频率和总的词项频率...
阅读(2177) 评论(0)

MapReduce编程(六) 从HDFS导入数据到Elasticsearch

Elasticsearch for Hadoop安装以及如何从HDFS导入数据到Elasticsearch...
阅读(5049) 评论(5)

MapReduce编程(五) 单表关联

MapReduce编程实现单表关联,挖掘爷孙关系 一、问题描述 下面给出一个child-parent的表格,要求挖掘其中的父子辈关系,给出祖孙辈关系的表格。...
阅读(851) 评论(0)

MapReduce编程(四) 求均值

MapReduce编程统计学生成绩的平均值,StringTokenizer和Split的用法对比...
阅读(1680) 评论(0)

MapReduce编程(三) 排序

MapReduce编程之排序问题一、问题描述文件中存储了商品id和商品价格的信息,文件中每行2列,第一列文本类型代表商品id,第二列为double类型代表商品价格。数据格式如下...
阅读(4448) 评论(1)

MapReduce编程(二) 文件合并和去重

MapReduce编程实现文件合并和去重:对输入的多个文件进行合并,并剔除其中重复的内容,去重后的内容输出到一个文件中。...
阅读(1281) 评论(0)

MapReduce编程(一) Intellij Idea配置MapReduce编程环境

介绍如何在Intellij Idea中通过创建maven工程配置MapReduce的编程环境。...
阅读(4832) 评论(1)

[大数据]Hadoop 2.7.3 和Hbase 1.2.4安装教程

一机器环境 二配置SSH免密码登录 三安装Hadoop 273 1下载Hadoop 2运行Hadoop单机模式 3 Hadoop伪分布式模式 31修改hadoop-envsh 32修改core-sitexml 33修改mapred-sitexmltemplate 34修改hdfs-sitexml 4启动hadoop 41格式化hdfs 42启动Hadoop 四安装Hbase 124 1 Hbase下...
阅读(4652) 评论(3)

远程文件拷贝命令scp的用法

scp命令用途scp是secure copy的缩写,是Linux系统下的远程文件拷贝命令。核心通途有2个: 拷贝本机文件到远程服务器 拷贝远程服务器上的文件到本地 它使用ssh安全协议传输数据,具有和ssh一样的验证机制,从而安全的远程拷贝文件。scp命令格式scp [-1246BCpqrv] [-c cipher] [-F ssh_config] [-i identity_file] [-l li...
阅读(1059) 评论(0)

大数据基础之常用Linux命令

大数据实验环境一般为Linux,熟悉Linux操作非常有必要,总结常用Linux命令如下。1.cd命令进入文件夹:cd dirname 进入多级文件夹:cd /usr/local/Cellar 返回上层目录:cd ../ 返回上层的上层:cd ../../ 回到主文件夹cd 2.ls命令ls命令用于列出当前文件和目录,加上参数之后可以做更多的事情。 不带参数运行ls会列出文件和目录ls 使用-l参...
阅读(2600) 评论(0)

MapReduce编程实例

需求输入文件:文本文件 每行格式: 3个部分由空格隔开 其中source和destination为两个字符串,内部没有空格 time为一个浮点数,代表时间(秒为单位) 涵义:可以表示一次电话通话,或表示一次网站访问等 输入可能有噪音: 如果一行不符合上述格式,应该被丢弃,程序需要正确执行 MapReduce计算:统计每对sourc...
阅读(1724) 评论(0)

MapReduce编程模型

MapReduce/HadoopMapReduce是目前云计算中最广泛使用的计算模型,由Google于2004年提出,谷歌关于云计算有三篇著名的论文: 《Bigtable_A Distributed Storage System for Structured Data》 《MapReduce: Simplied Data Processing on Large Clusters》 ......
阅读(3328) 评论(0)

[大数据]本地文件拷贝到hdfs

创建文件夹: hadoop fs -mkdir /work 拷贝: hadoop fs -put /Users/yp/Documents/test.txt /work 打开http://localhost:50070/: Utilities->browse the file system,可以看到新建的文件夹: 点击文件夹,就可以看到新上传的文件:...
阅读(3330) 评论(0)

hadoop helloworld(wordcount)

一、安装hadoop发现在mac上安装hadoop有更快捷的方法,首先安装homebrew,homebrew是一个包管理工具,安装hadoop命令如下:brew install hadoop默认会安装在/usr/local/Cellar目录下。该目录默认为隐藏的,可以打开finder,依次:菜单栏”前往”->”前往文件夹”,输入/usr/local/Cellar。快捷键command+shift+G...
阅读(700) 评论(0)
    QQ群

    交流群:559831158

    个人资料
    • 访问:702199次
    • 积分:7706
    • 等级:
    • 排名:第2952名
    • 原创:192篇
    • 转载:2篇
    • 译文:6篇
    • 评论:408条
    StackOverFlow
    http://stackoverflow.com/users/6526424
    统计
    博客专栏
    文章分类
    最新评论