大 数 据
文章平均质量分 89
蓝星花
用代码编写我们的青春年华!
展开
-
HBase介绍、安装与应用案例
1.下载HBase安装包从Apache网站上(hbase.apache.org)下载HBase稳定发布包:http://mirrors.cnnic.cn/apache/hbase/hbase-0.96.2/也可以在/home/shiyanlou/install-pack目录中找到该安装包,解压该安装包并把该安装包复制到/app目录中cd /home/shiyanlou/原创 2017-10-23 10:42:29 · 715 阅读 · 0 评论 -
HBase的Shell常用的操作命令
上海杰普软件科技有限公司(分享Hbase学习笔记)#创建命名空间create_namespace 'test1'#展示所有命名空间list_namespace#删除命名空间,The namespace must be empty.drop_namespace 'test1'#创建一张表,指定版本号为3create 'hbase_test:teacher',{NAME=>'baseinfo',...原创 2018-03-21 21:28:49 · 1033 阅读 · 0 评论 -
推荐系统(原理介绍)
A First Glance 为什么需要推荐系统——信息过载 随着互联网行业的井喷式发展,获取信息的方式越来越多,人们从主动获取信息逐渐变成了被动接受信息,信息量也在以几何倍数式爆发增长。举一个例子,PC时代用google reader,常常有上千条未读博客更新;如今的微信公众号,也有大量的红点未阅读。垃圾信息越来越多,导致用户获取有价值信息的成本大大增加。为了解决这个问题,我个人就采取了比较极...转载 2018-04-10 10:46:11 · 7338 阅读 · 1 评论 -
第一天 - Scala入门(学习目录总览)
该内容由杰普陈朦朦老师整理:Scala语言入门 1.概述 • scala是什么 • 为什么学习scala(scala的优势) • 如何使用scala 2. 编译环境(解释器) • IDE • CMD 3. 基础语法与规范 • 类型、定义、函数调用 • 代码写作规范 4. Scala脚本的编写、编译、运行 面向函数式编程,面向对象编程 一:Scala概述 ...原创 2018-03-28 11:05:02 · 742 阅读 · 0 评论 -
第二天 - Scala学习之路(基础入门)
一、Scala解释器的使用REPL:Read(取值)-> Evaluation(求值)-> Print(打印)-> Loop(循环)scala解释器也被称为REPL,会快速编译scala代码为字节码,然后交给JVM来执行。计算表达式:在scala>命令行内,键入scala代码,解释器会直接返回结果。如果你没有指定变量来存放这个值,那么值默认的名称为res,而且会显示结果的数...转载 2018-03-28 11:27:03 · 1179 阅读 · 1 评论 -
Linux上搭建spark环境
Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。Spark 正如其名,最大的特点就是快(Lightning-fast),可比 Hadoop MapReduce 的处理速度快 100 倍。此外,Spark 提供了简单易用的 API,几行代码就能实现 WordCount。注意:我的环境:scala:2.11.12spark:2.3.0java:1.8vim ~/....原创 2018-03-28 11:45:27 · 6819 阅读 · 0 评论 -
小白学习Spark原理
Spark是UC Berkeley AMP lab所开发类似于Hadoop MapReduce的通用并行计算框架,Spark是基于map reduce算法实现分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出的结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce算法。A...原创 2018-03-28 13:20:50 · 3657 阅读 · 0 评论 -
Spark SQL 和 DataFrames学习
Spark SQL 和 DataFramesSpark SQL 是 Spark 内嵌的模块,用于结构化数据。在 Spark 程序中可以使用 SQL 查询语句或 DataFrame API。DataFrames 和 SQL 提供了通用的方式来连接多种数据源,支持 Hive、Avro、Parquet、ORC、JSON、和 JDBC,并且可以在多种数据源之间执行 join 操作。spark SQL是sp...原创 2018-03-28 18:43:44 · 546 阅读 · 0 评论 -
Spark Streaming学习
Spark Streaming流计算除了使用 Storm 框架,使用 Spark Streaming 也是一个很好的选择。基于 Spark Streaming,可以方便地构建可拓展、高容错的流计算应用程序。Spark Streaming 使用 Spark API 进行流计算,这意味着在 Spark 上进行流处理与批处理的方式一样。因此,你可以复用批处理的代码,使用 Spark Streaming ...原创 2018-03-28 19:24:38 · 1051 阅读 · 0 评论 -
MapReduce排序
排序是MapReduce的核心技术,排序分为部分排序,全排序和二次排序。部分排序:调用默认的HashPartitioner,不需要操作,每个reduce聚合的key都是有序的。全排序:对reduce输出的所有的key实现排序 方法1:设置一个reducde 方法2:自定义分区类实现全排序 方法3 :使用采样 二次排序: ...原创 2018-04-13 20:46:07 · 493 阅读 · 0 评论 -
区块链-java入门Demo
正在创建第一个区块链....... 创建区块:00000d3c0681cd67f8050ab996e1400f99c0060ba4cb22d0c07685d9ae50cd10正在创建第二个区块链....... 创建区块:00000eafdd53bed5586d480d7704169c45b25fcb0bc5846b16be6fbeee88ec69正在创建第三个区块链.......创建区块...转载 2018-06-06 15:04:05 · 2601 阅读 · 6 评论 -
HBase安装-入门
单机模式,模拟分布式模式,以及全分布式模式:可以在任何的三种模式来安装HBase。在单机模式下安装HBase1.解压hbase-1.2.6.tar.gz到~/bigdata~> tar zxvf hb.gz -C ~/bigdata2.创建软链接ln -snf /home/kevin/bigdata/hbase-1.2.6 /home/kevin/bigdata/hbase3.配置环境变量v...原创 2018-03-21 21:01:25 · 577 阅读 · 0 评论 -
Spark中文指南(入门篇)-Spark编程模型(一)
前言本章将对Spark做一个简单的介绍,更多教程请参考:Spark教程本章知识点概括Apache Spark简介Spark的四种运行模式Spark基于Standlone的运行流程Spark基于YARN的运行流程Apache Spark是什么?Spark是一个用来实现快速而通用的集群计算的平台。扩展了广泛使用的MapReduce计算模型,而且高效地支持更多的计算模式,包括交互式查询和流处理。在处理大...转载 2018-03-30 19:31:36 · 922 阅读 · 1 评论 -
zooKeeper常用的api编程-简单
注意:zookeeper客户端和服务器会话的建立是一个异步的过程,也就是说在程序中,程序方法在处理完客户端初始化后立即返回(即程序继续往下执行代码,这样,在大多数情况下并没有真正的构建好一个可用会话,在会话的生命周期处于“CONNECTING”时才算真正的建立完毕,所以需要使用到多线程中的一个工具类CountDownLatch)。Idea+maven<?xml version="1.0" e...原创 2018-03-20 19:51:25 · 616 阅读 · 0 评论 -
Hadoop实验——熟悉常用的HDFS操作
一,编程实现以下指定功能,并利用Hadoop提供的Shell命令完成相同任务:向HDFS中上传任意文本文件,如果指定的文件在HDFS中已经存在,由用户指定是追加到原有文件末尾还是覆盖原有的文件Shell命令实现:1.先到Hadoop主文件夹cd /usr/local/hadoop2.启动Hadoop服务sbin/start-dfs.shsbin/start-yarn.转载 2017-11-12 19:31:51 · 30690 阅读 · 0 评论 -
hadoop fs、hadoop dfs与hdfs dfs命令
hadoop fs:使用面最广,可以操作任何文件系统。hadoop dfs与hdfs dfs:只能操作HDFS文件系统相关hadoop fs {args}hadoop dfs {args}hdfs dfs {args}cat使用方法:hadoop fs -cat URIchgrp使用方法:hadoop转载 2017-11-12 13:30:52 · 1879 阅读 · 0 评论 -
第一天-Hadoop伪分布环境搭建
记录我的hadoop学习路线,也希望能帮助到正在学习hadoop可爱的亲们!(杰普企业老师指点)一、准备先下载好hadoop(我的是2.8.3),jdk1.8http://mirrors.shu.edu.cn/apache/hadoop/common/hadoop-2.8.3/hadoop-2.8.3.tar.gzhttp://download.oracle.com/otn-pub/java/jd...原创 2018-03-08 20:11:33 · 479 阅读 · 0 评论 -
第二天-搭建Hadoop客户端
记录我的hadoop学习路线,也希望能帮助到正在学习hadoop可爱的亲们!(杰普企业老师指点)其实hadoop的客户端很好搭建,比伪分布还要简单,只需要配置core-site.xml即可就是让另一台主机当主节点,这台主机当客户端,通过9000端口去访问hdfs集群上的文件配置core-site.xml<configuration> <property> ...原创 2018-03-08 21:42:51 · 5888 阅读 · 0 评论 -
第三天-配置Hadoop的YARN集群
记录我的hadoop学习路线,也希望能帮助到正在学习hadoop可爱的亲们!(杰普企业老师指点)这节我们主要修改两个配置文件:mapred-site.xml , yarn-site.xml废话不多说,现在就干起.....(直接粘贴过去就ok,用户名改成自己的哦)1.mapred-site.xml<configuration><property> <name&...原创 2018-03-08 22:10:44 · 553 阅读 · 0 评论 -
第四天-HDFS编程实战
记录我的hadoop学习路线,也希望能帮助到正在学习hadoop可爱的亲们!(杰普企业老师指点)大纲:1.创建普通java项目2.在该项目上创建子模块3.编写pom.xml,引入相应的jar包4.编写上传文件的java代码5.将core-site.xml,hdfs-site.xml文件放到resources目录下6.开启你的集群,运行代码7.50070查看你的文件上传情况1.项目结构情...原创 2018-03-09 16:38:04 · 1191 阅读 · 0 评论 -
第五天-Hadoop全分布式集群搭建(傻瓜式配置)
记录我的hadoop学习路线,也希望能帮助到正在学习hadoop可爱的亲们!杰普企业老师指点大纲:一、搭建Hadoop全分布式集群前提 1.1、网络 1.2、安装jdk 1.3、安装hadoop二、Hadoop全分布式集群配置免密登录实现主节点控制从节点 2.1、配置主从节点之间的免密登录三、Hadoop全分布式集群搭建的配置 3.1、hadoop-env.sh ...原创 2018-03-11 19:10:13 · 931 阅读 · 0 评论 -
Hbase踩过的坑(使用idea调用JavaAPI)
一把辛酸泪啊,各种问题,网上都没有搜到一个非常完美的解决办法,几个小时候终于解决了,其实想想也挺简单的,只是没有对症下药,关键点没有找到,那下面我分享一下我的配置步骤。我的错误:前言:我们在windows上用Idea调试我们的hadoop或者hbase程序时,我们windows下面也要配置好hadoop环境,并且要注意版本一致(Maven/我们安装的版本)1.window安装hadoop环境注意:...原创 2018-03-22 21:21:00 · 8432 阅读 · 0 评论 -
ZooKeeper的安装与部署
ZooKeeper是用Java编写的,运行在Java环境上,因此,在部署zk的机器上需要安装Java运行环境。(java环境就不讲了)zookeeper官方定义:ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终,将简单易用的接口和性能高效、功能稳定的...原创 2018-03-20 13:04:21 · 661 阅读 · 0 评论 -
5分钟让你了解 ZooKeeper 的原理
API online(在线API速查)http://zookeeper.apache.org/doc/r3.4.6/api/index.html前言ZooKeeper 是一个开源的分布式协调服务,由雅虎创建,是 Google Chubby 的开源实现。分布式应用程序可以基于 ZooKeeper 实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master 选举、分布式锁和分...转载 2018-03-20 13:28:08 · 760 阅读 · 1 评论 -
漫画解析:谁叫的区块链,来门口取一下!
本文技术要点取快链?你想说的是区块链吧?要说清楚区块链,我们先来讲个故事。你一定听说过三人成虎的故事吧?假设一个人告诉你,不好了,大街上有只老虎,你相不相信?我去,你咋不按常理出牌啊,你要说不相信!重来!我们说的是真老虎!好!非常好!!影帝级的演出!!!继续,这时候换做一堆人告诉你这件事!我们再换一种场景。如果一个德高望重、你十分信任的老者告诉你这件事,你又会怎么想?是的,这就是所谓的信任的力量。...转载 2018-06-06 14:14:25 · 768 阅读 · 0 评论