Swt_BigData
码龄9年
关注
提问 私信
  • 博客:84,897
    84,897
    总访问量
  • 29
    原创
  • 1,293,380
    排名
  • 54
    粉丝
  • 0
    铁粉

个人简介:天道酬勤。也许你付出了不一定得到回报,但不付出一定得不到回报

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2015-11-19
博客简介:

Swt_BigData的博客

博客描述:
实时更新大数据技术
查看详细资料
个人成就
  • 获得40次点赞
  • 内容获得3次评论
  • 获得127次收藏
创作历程
  • 33篇
    2018年
成就勋章
TA的专栏
  • Hive-快速入门
  • Hadoop集群
    5篇
  • HDFS
    3篇
  • MapReduce
    2篇
  • Hive
    4篇
  • Hbase
    3篇
  • Spark
    2篇
  • Scala
    3篇
  • MySQL
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Scala基础入门教程(三)

Tuples(元组): 在Python中的元组是不受限制的,在Scala中元组最多支持22项 因为在Scala中实际上是定义了22个类,分别是Tuple1,Tuple2,Tuple3一直到22个,例子:object Demo1 extends App{ val x = Tuple1(1,2) println(x)}结果:((1,2))可以看见结...
原创
发布博客 2018.11.09 ·
583 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

Scala基础入门教程(二)

Scala中变量和函数: 在Java中定义语法为:Type varName = value ;//数据类型 变量名 值在Scala中变量定义必须要有修饰符:var、valVar代表一个变量,val代表一个常量def main(args: Array[String]): Unit = { var n =10 n=11 }//变量可以再次赋...
原创
发布博客 2018.11.08 ·
843 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

Scala基础入门教程(一)

Scala介绍:Scala是一门多范式的编程语言,一种类似java的编程语言 [1]  ,设计初衷是实现可伸缩的语言 [2]  、并集成面向对象编程和函数式编程的各种特性。scala是基于Jvm的,完美兼容Java,是脚本类语言,但为什么说是脚本类语言呢,因为它运行过程如下:源码 - scalac(编译) - *.class字节码 - scala - Jvm上 -running先...
原创
发布博客 2018.11.08 ·
3960 阅读 ·
1 点赞 ·
0 评论 ·
10 收藏

Spark基础入门教程(一):原理架构

Spark是什么?Spark是用来实现快速而通用的集群计算的平台。在此之前我们学过了Hadoop中的MapReduce,那么就以这两个为例比较一下:MapReduce:仅仅只支持Map和Reduce两种模式处理效率偏低,1)具体体现在Map的中间结果是写入到磁盘中,Reduce写HDFS中,多个MapReduce与HDFS交互数据频繁,认读调度较大。2)没有办法充分...
原创
发布博客 2018.11.06 ·
350 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

使用Zeppelin编写Spark读取CSV文件,统计结果并存放Mysql

在我们机器上编写一个CSV文件:[hadoop@Master spark]$ vi data.csv内容:大区,名称,充值金额c,u9,168c,u7,81b,u2,124c,u2,154a,u5,75b,u2,97a,u4,162c,u10,145b,u3,25d,u9,165b,u8,19d,u9,130b,u10,183d,u10,126a,u3,11...
原创
发布博客 2018.10.25 ·
2447 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

使用JavaApi操作Hbase

Hbase提供了JavaApi来进行操作,以下是笔者以JavaApi的集中方式对Hbase进行操作:条件查询:Scanpublic static void main(String[] args) { try(Connection conn = ConnectionFactory.createConnection()){ //通过Hbase中Connection ...
原创
发布博客 2018.09.21 ·
495 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Hbase中 shell简单操作

由于Hbase是NoSql数据库,里面不仅仅是SQL,操作命令会有不同,经常使用Mysql数据库的同学请注意首先启动Hbase的进程服务:[hadoop@Master hbase-2.1.0]$ bin/start-hbase.sh然后启动使用shell操作的客户端:[hadoop@Master hbase-2.1.0]$ bin/hbase shell看见如下界面之后,我...
原创
发布博客 2018.09.20 ·
1776 阅读 ·
2 点赞 ·
0 评论 ·
6 收藏

Hbase中ERROR: org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet错误

错误如下:hbase(main):001:0> listTABLE ERROR: org.apache.hadoop.hbase.ipc.ServerNotRunningYetExcept...
原创
发布博客 2018.09.13 ·
733 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hive中的几种排序方式

Order By Order By 会对输入做全局的排序,所以只会有一个reduce,这样的话在大量数据面前查询效率较低,费时较长select * from salary order by salary desc;//desc 升序 asc降序结果:+--------------+----------------+----------------+| salary.nam...
原创
发布博客 2018.09.03 ·
1495 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Hive中三种Join连接方式

数据源:a表1 zhangsan2 santi3 wangwu4 lisib表1 zhangsan2 Tian3 wanglu4 si 内连接等值连接,这意味着连接的谓语条件只能使用等号。HIve只允许在FROM子句中出现一张表,要进行连接操作,必须执...
原创
发布博客 2018.08.28 ·
795 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive DDL DML SQL操作

概述:hive是什么呢?(1).由Facebook开源,最初用于解决海量结构化的日志数据统计问题 (2).是一个构建在Hadoop之上的数据仓库 (虽然是数据仓库,但是它并不存储任何数据)(3).Hive定义了一种类似于SQL查询语言:HQL(非常类似于MySQL中的SQL语句,同时做了扩展) (4).通常用于离线数据处理(与MapReduce原理一样,只不过它是将HQL语句转换成M...
原创
发布博客 2018.08.23 ·
1295 阅读 ·
3 点赞 ·
1 评论 ·
5 收藏

Hive入门的个人总结(hive中都有什么,都干了什么:理论)

hive数据分为哪两种类型:    hive的数据分为表数据和元数据,表数据存储在HDFS上的数据,元数据是用来存储表的名字,表的列和分区及其属性的,存储在关系型数据库中表:hive中的表和关系型数据库的表基本相同,每个表在HDFS上是以目录的方式来体现存储表数据的,这个路径可以在 hive-site.xml中   hive.metastore.warehouse.dir 属性来配置,...
原创
发布博客 2018.08.14 ·
2363 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

Hive提示警告SSL

我们启动hive之后 在写语句的时候时候报:WARN: Establishing SSL connection without server's identity verification is not recommended. According to MySQL 5.5.45+, 5.6.26+ and 5.7.6+ requirements SSL connection must be ...
原创
发布博客 2018.08.10 ·
295 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

详细解析MapReduce的原理和执行过程

说明:本文的宗旨是给一些接触了MapReduce,但是对MapReduce原理流程还不了解的人员,也包括笔者自己,那就一起来学习吧。 MapReduce的原理: MapReduce运行时,首先通过Map读取HDFS中的数据,然后经过拆分,将每个文件中的每行数据分拆成键值对,最后输出作为Reduce的输入 文本的数据记录:如文本的行就是以"键值对"的方式传入Map函数...
转载
发布博客 2018.08.08 ·
12230 阅读 ·
4 点赞 ·
0 评论 ·
39 收藏

Mapreduce实例---统计单词个数(wordcount)

实例:统计每个单词在数据集中出现的次数 数据流程: 代码:Mapper类的实现: Reducer类的实现: Job提交客户端实现:然后我们需要通过Maven的工具窗口打包  直接双击即可 点击这里 找到   完成后我们运行即可,然后可以操作xshell命令 Cat  查看这个output2,如下即统...
原创
发布博客 2018.08.08 ·
3423 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

MapReduce 测试自带实例 wordcount

Hadoop版本:2.7.6Jar程序所在目录:是你解压后hadoop解压目录:/usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar 1.本地创建测试文件:mkdir /home/hadoop/datatouch a.txt  这里笔者创建了三个txt文件 vim a.t...
原创
发布博客 2018.08.03 ·
1977 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Hadoop启动Yarn

1,首先进入hadoop目录:cd /usr/local/hadoop2,修改配置文件 mapred-site.xml,这边需要先进行重命名:     mv ./etc/hadoop/mapred-site.xml.template ./etc/hadoop/mapred-site.xml     然后修改内容:gedit ./etc/hadoop/mapred-site.xml ...
原创
发布博客 2018.08.03 ·
1427 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

使用Java API操作ElasticSearch

Clientclient是一个类,我们可以通过Client类对ES集群进行各种操作:Index  Get Delete Serach,以及对ES集群的管理任务。Client需要基于 TransportClient TransportClientTransportClient可以远程链接ES集群,通过一个传输模块,但是它不真正的连接到集群中,只是获取一个或者多个传输地址,只有在每...
原创
发布博客 2018.08.02 ·
3755 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

Elasticsearch——kibana界面和Linux操作

  Elasticsearch是一个开源的搜索引擎,是一个建立在全文搜索库Apache Lucene库中上。Lucene可以说是当下不论是私有还是开源中,最先进,功能最全,高性能的搜索引擎库。  但是Lucene仅仅是一个库,你需要使用Java将Lucene集成到应用程序中。  Elasticsearch是用Java编写的,它的内部使用Lucene做搜索和索引,但是它的目的是为了让全文搜索...
原创
发布博客 2018.08.01 ·
1241 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HDFS Java API的使用实例

  HDFS是Hadoop程序中主要使用的文件分布系统,HDFS集群主要由管理文件系统元数据的NameNode和实际存储数据的DataNode组成的  HDFS架构图描述了NameNode和DataNode客户端之间的基本交互,客户端联系NameNode对文件和元数据进行修改。并直接使用DataNode执行实际的文件 I /O Hadoop支持Xshell命令直接与HDFS进行操作,同...
原创
发布博客 2018.07.25 ·
11134 阅读 ·
4 点赞 ·
0 评论 ·
22 收藏
加载更多