大数据基础篇
大数据基础篇介绍大数据的一些组件
董世森 学习
守道人网络科技工作室
展开
-
sqoop笔记
原创 2020-06-21 16:03:27 · 95 阅读 · 0 评论 -
hive笔记
在这里插入图片描述原创 2020-06-21 08:10:51 · 84 阅读 · 0 评论 -
hadoop优化
原创 2020-06-07 23:05:26 · 93 阅读 · 0 评论 -
整合笔记
centos基本命令CentOS Windows$>ls cmd>dir //$>ls --help //查看命令帮助$>man ls //查看命令帮助$>clear cmd>cls //清屏$>cd /home cmd>cd d:/ //切换目录...原创 2020-03-01 13:53:52 · 103 阅读 · 0 评论 -
笔记
linux打开 redis.conf 并更改配置文件更改密码#requirepass foobaredrequirepass xxx允许后台静默运行#daemonize nodaemonize yes更改日志文件#logfile “”logfile “/var/log/redis/6379.log”配置文件修改说明启动外网访问注释掉:bind 127.0.0.1去掉保护...原创 2020-02-28 20:49:01 · 113 阅读 · 0 评论 -
redis基础
Redis是一个分布式缓存数据系统,存储Key-value的数据结构,可以以数据库的形式,缓存系统,消息处理器使用,它支持的存储value类型很多,例如,string、list(链表)、set(集合)、zset(sorted set–有序集合)、hash(哈希类型)等。Redis是一个开源(BSD许可),内存存储的数据结构服务器,可用作数据库,高速缓存和消息队列代理。它支持字符串、哈希表、列表、...原创 2020-02-28 14:07:20 · 80 阅读 · 0 评论 -
linux随笔
linux中有的时候会出现这个很长的路径如下所示前面有 一个很长的路径:我们可以通过在 /etc/profile中 去掉一个配置就行了在PS1的这个配置中在次语句前加上# 进行注释掉,。就不会 有这么长的路径显示了。刷啊新配置即可。source /etc/profile如果你要显示路径 的话你就加上那个 PS1的配置,刷新配即可。----------------------...原创 2020-01-30 16:31:43 · 133 阅读 · 0 评论 -
学习笔记
安装ncyum install nmap-ncat.x86_64cat 123 |nc 192.168.1.10 8888将标准输入转发到192.168.1.10的8888端口,并将返回输出到标准输出可以直接发送HTTP请求$nc 192.168.1.10 80 <<EOFGET / HTTP/1.0EOF即可显示首页内容收发文件发送方,读file文件,监听8888...原创 2020-01-30 16:27:22 · 203 阅读 · 0 评论 -
学习笔记
在这里插入图片描述原创 2020-01-30 16:26:30 · 87 阅读 · 0 评论 -
scala语言学习
本人是在linux(Ubuntu)中对scala进行的编程学习在linux中进入scala的方法:输入如下的代码scala即可那么如何退出这个scala的编译器呢?输入如下的代码:quithellowordobject helloword {def main(args : Array[String]{ println("hello")}}执行如下的语句这个可以查看结...原创 2020-01-30 16:25:25 · 125 阅读 · 0 评论 -
大数据随笔
hadoop2.x启动步骤、1:首先我们要先启动zookeeper。zkServer.sh start2:格式 化zkfchdfs zkfc -formatZK3:启动journalnode ( namenode的同步数据的 单独的进程)hadoop-daemon.sh start journalnode 4: 格式化namenode(不启动第三步的话,在namenode的初...原创 2020-01-30 16:24:42 · 116 阅读 · 0 评论 -
大数据四个常用架构
原创 2020-01-30 16:23:31 · 1510 阅读 · 0 评论 -
ES中ik的离线安装及简单使用
离线安装mvn packageik 下载在 ES的安装目录中创建两个文件目录原创 2020-01-30 16:22:23 · 797 阅读 · 0 评论 -
hbase(shell)实操
1:开启hadoop集群2:开启hbase集群3:hbase shell使用的学习方法1:help查看hbase支持的命令,输入help ‘ xxxxx’,可以查看到该命令的使用方法!2:按下tab键可以对命令进行补全3:去官网学习,不用去买任何书,官网是最强的。http://hbase.apache.org开始学习 了COMMAND GROUPS: Group name: ...原创 2020-01-23 16:35:09 · 224 阅读 · 0 评论 -
hive实操
原创 2020-01-22 20:20:21 · 178 阅读 · 0 评论 -
ES中curl的使用(四)
一 (查询)查询所有的curl -XGET 'http://hadoop01:9200/bigdata/product/_search?pretty'查询id =1的 信息curl -XGET 'http://hadoop01:9200/bigdata/product/1?pretty'curl -XGET 'http://hadoop01:9200/bigdata/produ...原创 2020-01-21 16:44:52 · 611 阅读 · 0 评论 -
ES中crul命令使用(三)
curl的简介以 命令行的方式来向服务器端发起请求。(cuirl模拟用户端向服务端进行信息交换,与 浏览器的地址栏相似)命令查看命令的解析curl --help启动es使用curl来创建索引库,创建索引(创建数据库)索引库的名称全部 小写。不能以下划线开头,也不能包含逗号。curl -XPUT 'http://192.168.43.37:9200/bigdata' 创建索引...原创 2020-01-20 16:04:16 · 568 阅读 · 0 评论 -
ElasticSearch与RDBMS(mysql)对比(二)
王ye’y原创 2020-01-20 12:24:25 · 412 阅读 · 0 评论 -
elasticsearch,lucene ,solr 的简单介绍区别与联系(一)
lucene的概述Lucene是一个高性能、可伸缩的信息搜索(IR)库。它可以为你的应用程序添加索引和搜索能力。Lucene是用java实现的、成熟的开源项目,是著名的Apache Jakarta大家庭的一员,并且基于Apache软件许可 [ASF, License]。同样,Lucene是当前非常流行的、免费的Java信息搜索(IR)库。1:ES的概述ES是对apache lucene的封装...原创 2020-01-20 10:48:53 · 953 阅读 · 0 评论 -
fink 的本地模式 及集群的安装
本地模式(什么都不用配置)下载启动命令bin/start-cluster.shwebui界面查看(8081端口)-----------------------------------------------------------------------------------------集群模式安装配置slaver配置master配置flink-conf.yamlb...原创 2020-01-19 21:08:20 · 206 阅读 · 0 评论 -
sqoop的集群搭建与简单运用
下载配置文件conf/sqoop-env.shvim /etc/profiile在lib中导入mysql-connector-java 包注释掉bin/目录下的configure-sqoop文件的内容注释掉如下的两个组件,我们没有配,注释掉否则会报错的,test:与mysql的连接...原创 2020-01-18 22:43:27 · 290 阅读 · 0 评论 -
kafk集群配及简单的运用
下载配置config目录下的文件server.propertiesServer Basicsbroker.id=x (x必须是唯一的)Log Basicslog.dirs=/kafka/logzookeeperzookeeper.connect=hadoop01:2181,hadoop02:2181,hadoop03:2181分发(scp)修改各个 从节点的 config...原创 2020-01-18 20:54:25 · 175 阅读 · 0 评论 -
spark集群搭建
下载解压配置spark-env.sh# - OPENBLAS_NUM_THREADS=1 Disable multi-threading of OpenBLASexport JAVA_HOME=/usr/lib/jvm/jdk#spark的主节点export SPARK_MASTER_IP=hadoop01#内部端口号export SPARK_MASTER_PORT=7...原创 2020-01-18 00:09:24 · 96 阅读 · 0 评论 -
hadoop2.6.0中配置hbase比较简单的
我没有配置hbase的ha。我使用的是集群中 的zk,而不是hbase中自带的zk下载好 hbase解压配置hbase-env.shjavahomezk配置hbase-site.sh配置全局变量export hbasehome分发 scp -r hbase目录 hadoop02(目标主机):路径启动集群start-hbase.sh查看webuihadoo...原创 2020-01-17 23:52:16 · 611 阅读 · 0 评论 -
hadoo2.6集群下zookeeper-3.4.7的安装遇到的坑
1:配置文件不可出错2:要 在zookeeper的 工作目录下创建一个 myid的文件.在配置zookeeper的安装目录下的myid时,要根据 如下的数字 进行来填写myid文件的。如hadoop01的节点中,zookeeper的安装目录下的myid的数字就是1hadoop02的节点中,zookeeper的安装目录下的myid的数字就是2hadoop03的节点中,zookeeper的安...原创 2020-01-16 22:02:24 · 160 阅读 · 0 评论 -
hadoop2.6.0搭建hive-2.3.3集群我遇到坑(hive的远程模式下)
总结:1:mysql数据库要在主节点(active)上安装才行 !2:lib的数据库连接的jar包要对相关的mysql版本3 : 如果给 集群配置过ha的, 要保证hive数据库的初始化的时候,要保证安装了mysql的节点的namenode是active的状态,否则在hive的元数据的初始化的过程中会 报错,提示一些 节点的是处于备的状态4:在运行hive之前要先启动hive的服务。5 ...原创 2020-01-16 21:33:05 · 424 阅读 · 0 评论 -
cetos7.5 中安装mysql5.7
下载源的地址:wget http://dev.mysql.com/get/mysql57-community-release-el7-8.noarch.rpm下载完, 安装源yum localinstall mysql57-community-release-el7-8.noarch.rpm安装mysqlyum install mysql-community-server检查是否...原创 2020-01-16 14:50:21 · 183 阅读 · 0 评论 -
Loader技术原理
Loader技术原理1.什么是Loader1.2.基于开源Sqoop研发,做了大量优化和扩展。1.4.Loader是实现FusionInsight HD与关系型数据库、文件系统之间交换数据和文件的数据加载工具。提供可视化向导式的作业配置管理界面;提供定时调度任务,周期性执行Loader作业;在界面中可指定多种不同的数据源、配置数据的清洗和转换步骤、配置集群存储系统等。2.Loader的应用...原创 2020-01-07 21:34:32 · 1252 阅读 · 0 评论 -
Streaming的介绍
Streaming1.Streaming简介1.1.Streaming基于开源Storm,是一个分布式、实时计算框架。1.2.Streaming具有以下几种特点:1.3.实时响应,低延迟。1.4.数据不存储,先计算。1.5.连续查询。1.6.事件驱动。2.Streaming应用场景2.1.主要应用于以下几种场景:2.2.实时分析:如实时日志处理、交通流量分析等。2.3.实时统...原创 2020-01-07 21:31:44 · 2732 阅读 · 0 评论 -
kafka的介绍
kafka1.高吞吐, 分布式,基于发布订阅的消息系统2. Kafka应用场景简介2.1.Kafka和其他组件比较,具有消息持久化、高吞吐、实时等特性,适用于离线和实时的消息消费,如网站活性跟踪、聚合统计系统运营数据(监控数据)、日志收集等大量数据的数据收集场景。3.Kafka Topics3.1.每条发布到Kafka的消息都有一个类别,这个类别被称为Topic,也可以理解为一个存储消息...原创 2020-01-07 21:27:39 · 285 阅读 · 0 评论 -
fink介绍
flink1.Flink概述1.1.Flink是一个批处理和流处理结合的统一计算框架,其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。它的最大亮点是流处理,是业界最顶级的开源流处理引擎。1.2.Flink与Storm类似,属于事件驱动型实时流系统。2.Flink特点2.1.Performance2.2.性能,高吞吐量,低延迟2.3.Scalable2.4.可扩展性,100...原创 2020-01-07 21:25:12 · 3037 阅读 · 0 评论 -
MapReduce介绍
MapReduce和YARN技术原理1.MapReduce概述1.1.MapReduce基于Google发布的MapReduce论文设计开发,用于大规模数据集(大于1TB)的并行计算,具有如下特点:1.2.易于编程:程序员仅需描述做什么,具体怎么做交由系统的执行框架处理。1.3.良好的扩展性:可通过添加节点以扩展集群能力。1.4.高容错性:通过计算迁移或数据迁移等策略提高集群的可用性与容...原创 2020-01-07 21:16:49 · 594 阅读 · 0 评论 -
hbase介绍
HBase技术原理1.HBase简介1.1.HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。1.2.适合于存储大表数据(表的规模可以达到数十亿行以及数百万列),并且对大表数据的读、写访问可以达到实时级别。1.3.利用Hadoop HDFS(Hadoop Distributed File System)作为其文件存储系统,提供实时读写的分布式数据库系统。1.4.利用Zoo...原创 2020-01-07 21:13:47 · 585 阅读 · 0 评论 -
flume介绍
Flume技术原理1.Flume是什么1.1.Flume是开源日志系统。是一个分布式、可靠和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。1.2.Flume是流式日志采集工具,Flume提供对数据进行简单处理并且写到各种数据接受方(可定制)的能力,Flume提供从本地文件(spoolin...原创 2020-01-07 21:06:35 · 795 阅读 · 0 评论 -
zookeeper介绍
ZooKeeper集群分布式协调服务1.ZooKeeper概述1.1.ZooKeeper分布式服务框架主要是用来解决分布式应用中经常遇到的一些数据管理问题,提供分布式、高可用性的协调服务能力。1.2.安全模式下ZooKeeper依赖于Kerberos和LdapServer进行安全认证,非安全模式则不依赖于Kerberos与Ldap。ZooKeeper作为底层组件广泛被上层组件使用并依赖,如K...原创 2020-01-07 21:03:57 · 479 阅读 · 0 评论 -
hadoop2.x集群zookeepe集群的搭建
下载安装配置环境变量/etc/profile这里 的安装的路径要写自己的export ZK_HOME=/usr/local/zookeeper-3.4.7/export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$ZK_HOME/bin随便的进入一个目录,看是否可以补全zkS。。。。.sh进入zook...原创 2020-01-07 20:56:47 · 105 阅读 · 0 评论 -
hive入门
hivehive的架构 ,三种重要的角色。hiveserver编译hql,解析成对应的yarn任务,spark,hdfs任务 。MeatStore提供元数据服务WebHcat对外提供http协议的元数据的访问,ddl的查询的服务 。加入了众多企业级定制化特性,如Colocation建表,列加密,语法增强等特性。整个产品在高可靠,高容错,可扩展性以及性能等各方面较社区有巨大提升。h...原创 2020-01-07 20:50:40 · 517 阅读 · 0 评论 -
hbaseshell(常用的命令)
1:首先把自己的hadoop ,运行起来。2: 把这个hbase启动。: 进入./hbase shell常见的dll操作。创建表时一定要把 表名和 列名指定,并用’ '包围起来,如下‘test’为表名,‘dss’为列族的名称。 create 'test' , 'dss'显示表 的描述信息describe 'test'列举 表的信息list 'test'删除...原创 2020-01-07 20:47:13 · 232 阅读 · 0 评论 -
hadoop2.x配置及wordcount小运用(单机)
hadoop的环境搭建1:创建用户hadoop2:修改hadoop用户的权限命令visudo 添加 hadoop all all 语句;3:关闭防火墙service iptables stop4:修改主机名 : hostname hadoop015:映射主机 vim /etc/hosts 加上一条语句格式 ip地址+主机名 192.168.46.128 hadoop01验证是否...原创 2019-10-03 08:49:40 · 177 阅读 · 0 评论