大数据
文章平均质量分 91
Terry无敌
我的代码曾运行在几千万用户的机器上,作为一个准程序员,还有什么比这更让人满足的呢?如果有,那就是让这个用户数量再扩大 10 倍。
展开
-
Hadoop 第二课 Hadoop2.7.3集群搭建
说明:搭建平台为ubuntu16.04 (为什么在Ubuntu 上,请看hadoop第一课) 一:环境准备(必备) 1:jdk oracle 我使用的是java version “1.8.0_101” 没有的话,$ wget http://download.oracle.com/otn-pub/java/jdk/8u111-b14/jdk-8u111原创 2016-11-15 10:16:29 · 1051 阅读 · 1 评论 -
Hbase 原理 及其安装
Hbase 基本原理Hbase?HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,它存储的是松散型数据,具体来说,HBase存储的数据介于映射(key/value)和关系型数据之间。同时利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群.Hbase是Google Bigtable的开源实现,类似Go原创 2016-11-27 10:02:50 · 508 阅读 · 0 评论 -
解密Spring Boot整合Dubbo RPC框架
前言什么是spring boot?https://docs.spring.io 官方网址https://docs.spring.io/spring-boot/docs/2.0.0.M5/reference/htmlsingle/ 官方文档https://docs.spring.io/spring-boot/docs/current/reference/pdf/spring-boot-refer原创 2017-10-19 21:23:15 · 4420 阅读 · 0 评论 -
Hive创建表以及导入数据
## 建表### 内表```create table test_user_base( name string comment 'name value', workid string comment 'workid value', age string comment 'age value', sex string comment 'sex value', phone string comment ...原创 2018-07-04 14:54:12 · 4846 阅读 · 0 评论 -
HIVE删除外部表
测试使用truncate命令删除外部表:truncate table mytable;#FAILED: SemanticException [Error 10146]: Cannot truncate non-managed table mytable. (state=,code=0)分析查看表结构 1. describe extended tablename 2. ...原创 2018-07-25 22:33:22 · 29965 阅读 · 5 评论 -
Mysql授权与撤权
给用户cacti赋予所有库的所有权限GRANT ALL PRIVILEGES ON . TO ‘cacti’@’%’ IDENTIFIED BY ‘cacti’ WITH GRANT OPTION;重新载入赋权表FLUSH PRIVILEGES;收回权限(不包含赋权权限)REVOKE ALL PRIVILEGES ON . FROM cacti;REVOKE ALL...原创 2018-07-25 23:12:52 · 321 阅读 · 0 评论 -
Centos7.6安装Superset及报错锦集
前言两年前用过的superset,快忘记了,现在由于客户要求自定义报表,我们提供了两个方案,一是业界牛逼的商业软件tableau(价格昂贵),另一个就是传说中颠覆tableau的开源软件Apache-superset,结合项目实际情况以及方案性引导,客户最终选择后者,作为开发的我就开始了搭建之旅~~~必要条件Py3如图,Py3.6是superset的最低标准,因为Py3不是Centos...原创 2019-05-27 09:56:43 · 1828 阅读 · 1 评论 -
kafka2.0系列之(1) 认识kafka
说明kafka所有文章均基于版本 Kafka 2.2.0java版本最低为Java 8所有配置均使用默认安装配置下载解压$ wget http://mirrors.tuna.tsinghua.edu.cn/apache/kafka/2.2.0/kafka_2.12-2.2.0.tgz $ tar -xzf kafka_2.12-2.2.0.tgz$ cd kafka_2.12-...原创 2019-06-02 12:45:46 · 590 阅读 · 0 评论 -
基于Centos7.6安装ElasticSearch7.3
想起以前的一个需求,需要统计10几台服务器上Tomcat产生的日志,提取规则就是每天定时采集前一天的日志,当时用shell(find-tar-scp-tar)弄的比较简单,随着项目规模扩大,服务器需要扩容,以前的日志收集方案发现不是很方便,网上收集资料使用EFK(非ELK),本文先安装ZS集群。elastic官网 https://www.elastic.co/cn/products/ela...原创 2019-09-02 23:27:10 · 868 阅读 · 0 评论 -
Java客户端连接ElasticSearch集群
前言集群ES安装完成之后使用dbeaver 连接,发现jdbc驱动总是连接不上,后来发现免费版ElasticSearch没有JDBC许可证。网上有资料去解决JDBC这问题,参考如下博客:https://blog.csdn.net/wfs1994/article/details/80421922https://www.cnblogs.com/reboot51/p/8328720.html由...原创 2019-09-09 15:25:18 · 8550 阅读 · 0 评论 -
ES中index和type的区别
前言对于 ES 的新用户来说,有一个常见的问题:要存储一批新数据时,应该在已有 index 里新建一个 type,还是给它新建一个 index?要想回答这个问题,我们必须先理解这两者是怎么实现的。在过去,我们试图通过与关系数据库建立类比来使弹性搜索更容易理解:索引就像数据库一样,类似于数据库中的表。这是一个错误:数据的存储方式是如此不同,以至于任何比较几乎都没有意义,这最终会导致在有害的情况下...翻译 2019-09-09 16:18:59 · 20880 阅读 · 0 评论 -
基于hadoop学习Apache Pig
Apache Pig是一个用于分析大型数据集的平台,其中包括用于表达数据分析程序的高级语言,以及用于评估这些程序的基础结构。 Pig程序的显着特性是它们的结构适于大量并行化,这反过来使得它们能够处理非常大的数据集。目前,Pig的基础结构层由一个编译器组成,该编译器产生Map-Reduce程序的序列,已经存在大规模并行实现(例如Hadoop子项目)。 Pig的语言层目前由一种称为Pig Latin的文原创 2016-12-07 18:01:10 · 484 阅读 · 0 评论 -
hadoop 安装 运行错误大集合
1:报错:Call to localhost/127.0.0.1:9000 failed on connection exception: java.net.ConnectExceptionCall to localhost/127.0.0.1:9000 failed on connection exception: java.net.ConnectException使用j原创 2016-11-18 12:39:32 · 593 阅读 · 0 评论 -
基于Hadoop的数据仓库Hive 学习指南
一、Hive简介Hive是Facebook开发的构建于Hadoop集群之上的数据仓库应用,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。Hive是一个可以提供有效的、合理的且直观的组织和使用数据的模型,即使对于经验丰富的Java开发工程师来说,将这些常见的数据运算对应到底层的MapReduce Java原创 2016-11-24 08:40:16 · 1455 阅读 · 0 评论 -
Hadoop 第一课 了解hadoop
hadoop:大数据的分析管理工具之一。官网:http://hadoop.apache.org/Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数原创 2016-11-15 09:10:30 · 482 阅读 · 0 评论 -
Hadoop 第四课 hdfs 结构以及基本操作
1HDFS结构1.1体系结构 - HDFS采用master/slave架构。一个HDFS集群是由一个Namenode和一定数目的Datanode组成。 - Namenode是一个中心服务器,负责管理文件系统的命名空间和客户端对文件的访问。 - Namenode执行文件系统的命名空间操作,例如打开、关闭、重命名文件和目录,同时决定block到具体 - Datanode负责处理文件系统的原创 2016-11-17 21:27:55 · 616 阅读 · 0 评论 -
Hadoop 第六课 WebHDFS REST API
说明:WebHDFS观念是基于HTTP操作,比如GET、PUT、POST和DELETE。像OPEN、GETFILESTATUS、LISTSTATUS的操作是使用HTTP GET,其它的像CREAT、MKDIRS、RENAME、SETPERMISSION是依赖于HTTP PUT类型。APPEND操作时基于HTTP POST类型,然而,DELETE是使用HTTP DELETE。1$ curl原创 2016-11-19 09:46:44 · 1838 阅读 · 0 评论 -
Hadoop 第五课 几个文件搞定HDFS常用的Java Api
一、使用Hadoop URL读取数据“` package online.tengxing.hdfs;import org.apache.hadoop.fs.FsUrlStreamHandlerFactory; import org.apache.hadoop.io.IOUtils;import java.io.IOException; import java.io.InputStream;原创 2016-11-17 21:42:51 · 670 阅读 · 0 评论 -
Apache zookeeper 入门学习到Apache Curator
Zookeeper 分布式服务框架是 Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。 下面是官网:下载安装下载zookeeper zookeeper下载添加环境变量export ZOOKEEPER_HOME=$HOME/dev/zookeeper-3.3.6export原创 2016-12-11 11:28:08 · 2632 阅读 · 2 评论 -
Apache Curator“菜谱”下的高级特性:分布式锁与Leader选举
网上说Curator框架是最好用,最流行的zookeeper的客户端。我也来学习学习,再贴一张图 优点:提供了一套非常友好的操作API;提供一些高级特性(包括但不仅限于前篇文章中提到的)的封装易测试基本的API见前一篇 http://blog.csdn.net/tengxing007/article/details/53572224 为什么说“菜谱”?<dependency>原创 2016-12-11 16:53:06 · 1019 阅读 · 0 评论 -
Hadoop 第三课 wordcount 统计
1使用hadoop下面自带的例子在hadoop根目录下$mkdir input$mkdir output$cp ~/aa.txt $HADOOP_HOME/input/$ ./bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.*.3.jar wordcount input output$cat output/*原创 2016-11-17 21:26:30 · 506 阅读 · 0 评论 -
Hadoop 第七课 从wordCount 看MapReduce模型
MapReduce 原理MapReduce 模型的精髓在于它的算法思想——分治。对于分治的过程可以参见我之前的一篇博客《大数据算法:对5亿数据进行排序》。还有就是可以去学习一下排序算法中的归并排序,在这个排序算法中就是基于分治思想的。 回归正题,在 MapReduce 模型中,可以把分治的这一概念表现得淋漓尽致。在处理大量数据的时候(比如说 1 TB,你别说没有这么多的数据,大公司这点转载 2016-11-20 22:35:13 · 380 阅读 · 0 评论 -
HBase Java API
HBase Java API 几个相关类与HBase数据模型之间的对应关系java类HBase数据模型HBaseAdmin数据库(DataBase)HBaseConfigurationHTable表(Table)HTableDescriptor列族(Column Family)原创 2016-12-03 19:13:43 · 364 阅读 · 0 评论 -
hadoop2.7.3的ftp over hdfs搭建:
1 环境准备1.1 ubuntu16.041.2 hadoop 2.7.3安装见:http://blog.csdn.net/tengxing007/article/details/531686481.3 IDE自选1.4 maven 3.3.9没有的话下载一个就好2 核心软件 2.1 《hdfs-over-ftp》 用于沟通原创 2016-11-20 15:37:13 · 4382 阅读 · 0 评论 -
基于Centos7.6安装Filebeat7.3
前言该篇为EFK日志系统搭建的姊妹篇,第一篇为基于Centos7.6安装ElasticSearch7.3,主要就是记录一下Filebeat的安装配置以及抓取日志落地到ElasticSearch.下载解压$ wget -P /data/app/ https://artifacts.elastic.co/downloads/beats/filebeat/filebeat-7.3.1-linux-...原创 2019-09-16 14:59:24 · 3560 阅读 · 0 评论