大数据
文章平均质量分 66
RunFromHere
AI领域探索
展开
-
大数据Elasticsearch之Elasticsearch开启内存锁定
文章目录1.查看 Elasticsearch 内存锁定状态2.开启 Elasticsearch 的内存锁定功能3.重启 Elasticsearch,生效配置参考文档关键词:开启内存锁定 关闭内存锁定 性能优化 Elasticsearch nodes bootstarp memory lock1.查看 Elasticsearch 内存锁定状态系统会默认进行内存交换,这样会导致Elasti...原创 2020-03-28 21:38:17 · 1466 阅读 · 0 评论 -
大数据Elasticsearch之轻量级日志采集工具FileBeat的安装、配置与使用
文章目录beatsFilebeat1. 下载&解压2. 配置filebeat.yml3. 启动Filebeatbeatsbeats是一个代理,将不同类型的数据发送到elasticsearch。beats可以直接将数据发送到elasticsearch,也可以通过logstash将数据发送elasticsearch。FilebeatFilebeat是File采集专用beats,用来...原创 2019-10-14 21:13:51 · 295 阅读 · 0 评论 -
大数据Elasticsearch之Elasticsearch配置文件详解elasticsearch.yml
主要讲解elasticsearch.yml文件中的配置内容#配置es的集群名称,默认是elasticsearch,es会自动发现在同一网段下的es,如果在同一网段下有多个集群,就可以用这个属性来区分不同的集群。cluster.name: cluster1#节点名,默认随机指定一个name列表中名字,该列表在es的jar包中config文件夹里name.txt文件中,其中有很多作者添加的有趣名...原创 2019-10-14 21:04:36 · 200 阅读 · 0 评论 -
大数据Elasticsearch之Elasticsearch集群节点类型
文章目录1. 主节点(Master 节点)2. 数据节点(Data节点)3. 负载均衡节点(Client节点)4. 预处理节点(Ingest节点)节点主要有四大类型1. 主节点(Master 节点)主节点的主要职责是负责集群操作相关的内容,如创建或删除索引,跟踪哪些节点是群集的一部分,并决定哪些分片分配给相关的节点。稳定的主节点对集群的健康是非常重要的。默认情况下任何一个集群中的节点都有可...原创 2019-10-14 20:53:09 · 815 阅读 · 0 评论 -
大数据Elasticsearch之搭建Elasticsearch集群
文章目录1. 配置elasticsearch.yml2. 查询集群状态1. 配置elasticsearch.yml#集群名称,同个集群名称一致,所有节点都需要配置cluster.name: cluster-name#节点名称,每个节点名都唯一node.name: node-name#是否有资格成为主节点。真正的主节点需要经过选举后才产生。node.master: true#是否是...原创 2019-10-14 20:46:28 · 205 阅读 · 0 评论 -
大数据Elasticsearch之Elasticsearch基本操作
文章目录1. 索引的基本操作1.1 新建 Index1.2 删除 Index1.3 新增记录1.4 查看记录1.5 删除记录1.6 更新记录2. 数据查询2.1 返回所有记录2.2 全文搜索1. 索引的基本操作1.1 新建 Index可以直接向 Elastic 服务器发出 PUT 请求新建一个名叫 weather 的 Index$ curl -X PUT 'localhost:9200...原创 2019-10-12 18:48:09 · 180 阅读 · 0 评论 -
大数据Elasticsearch之linux系统安装Elasticsearch
文章目录三个步骤(linux系统皆可)1. 安装JDK1.8+2. 安装并配置elasticsearch下载压缩包(文章中用的是7.3.2版本)使用或新建普通用户配置配置资源使用限制3. 启动elasticsearch三个步骤(linux系统皆可)安装Java环境安装并配置elasticsearch启动elasticsearch1. 安装JDK1.8+安装1.8版本或以上的jd...原创 2019-10-12 18:25:46 · 139 阅读 · 0 评论 -
大数据Elasticsearch之Linux系统安装Kibana
文章目录1. 下载2. 配置3. 运行1. 下载下载tar.gz包wget https://artifacts.elastic.co/downloads/kibana/kibana-7.3.2-linux-x86_64.tar.gz解压tar -zxvf kibana-7.3.2-linux-x86_64.tar.gz要以普通用户来运行才可以chown -R es kibana-7...原创 2019-10-12 18:32:02 · 132 阅读 · 0 评论 -
大数据Elasticsearch之修改副本分片的数量
发HTTP请求修改PUT /myindex/_settings{“number_of_replicas”: 1}即可把myindex索引的副本分片设置为1份原创 2019-10-12 16:59:27 · 2042 阅读 · 0 评论 -
大数据MongoDB之mgo驱动如何对查询结果进行排序(正序逆序多字段排序)?
mgo - MongoDB driver for Go,是一个连接数据库的开源工具。我们要如何使用mgo驱动对查询结果进行排序呢?(正序逆序多字段排序)文章目录1.Sort() 方法1.1 可以使用 Sort() 方法根据某个字段进行排序1.2 可以逆序查询,只要在字段名前加上 '-' 号就好1.3 也可以多字段查询2. 源码解析1.Sort() 方法1.1 可以使用 Sort() 方法...原创 2019-03-20 17:00:56 · 4865 阅读 · 0 评论 -
大数据MongoDB之NoSQL是什么?为什么使用NoSQL?
文章目录1. 什么是NoSQL?1.1 NoSql简介1.1 NoSql历史2. 为什么使用NoSQL?2.1 数据量呈现出指数级增长的趋势2.2 非结构化类型的数据量呈现出指数级增长的趋势1. 什么是NoSQL?1.1 NoSql简介NoSQL,指的是非关系型的数据库。NoSQL有时也称作 Not Only SQL ,是对不同于传统的关系型数据库的数据库管理系统的统称。NoSQL用于超...原创 2019-02-26 17:12:26 · 1085 阅读 · 0 评论 -
大数据MongoDB之NoSQL数据库分类(按存储类型分)
存储类型代表特点列存储Hbase Cassandra Hypertable顾名思义,是按列存储数据的。最大的特点是方便存储结构化和半结构化数据,方便做数据压缩,对针对某一列或者某几列的查询有非常大的IO优势。文档存储MongoDB CouchDB文档存储一般用类似json的格式存储,存储的内容是文档型的。这样也就有有机会对某些字段建立索引,实现关系数据库...原创 2019-03-01 17:49:20 · 1169 阅读 · 0 评论 -
大数据MongoDB之NoSQL的CAP定理和BASE原则是什么?
文章目录1. CAP定理是什么?2. BASE原则3. BASE vs ACID1. CAP定理是什么?在计算机科学中, CAP定理(CAP theorem), 又被称作布鲁尔定理(Brewer’s theorem), 它指出对于一个分布式计算系统来说,不可能同时满足以下三点:一致性(Consistency) (所有节点在同一时间具有相同的数据)可用性(Availability) (保...原创 2019-03-01 17:40:37 · 954 阅读 · 0 评论 -
大数据MongoDB之关系型与非关系型数据库的对比
关系型数据库(RDBMS)与非关系型数据库(NoSQL)的对比文章目录关系型数据库(RDBMS)与非关系型数据库(NoSQL)的对比1. RDBMS2. NoSQL1. RDBMS高度组织化结构化数据结构化查询语言(SQL) (SQL)数据和关系都存储在单独的表中。数据操纵语言,数据定义语言严格的一致性基础事务2. NoSQL代表着不仅仅是SQL没有声明性查询语言...原创 2019-03-01 17:21:00 · 789 阅读 · 0 评论 -
大数据MongoDB之分布式系统是什么?分布式系统的优缺点
文章目录1. 分布式系统是什么?2. 分布式系统的优缺点2.1 优点2.2 缺点1. 分布式系统是什么?分布式系统(distributed system)由多台计算机和通信的软件组件通过计算机网络连接(本地网络或广域网)组成。分布式系统是建立在网络之上的软件系统。正是因为软件的特性,所以分布式系统具有高度的内聚性和透明性。因此,网络和分布式系统之间的区别更多的在于高层软件(特别是操作系统...原创 2019-03-01 17:15:37 · 571 阅读 · 0 评论 -
大数据Hive之Hive的结构
文章目录1. Hive结构介绍2. 结构描述2.1 用户接口主要有三个:CLI,Client 和 WUI2.2 Hive 将元数据存储在数据库中,如 mysql、derby2.3 解释器、编译器、优化器、执行器3. Hive 和普通 DB 的异同4. 元数据5. 数据存储1. Hive结构介绍Hive 构建在Hadoop的HDFS和MapReduce之上,用于管理和查询结构化/非结构化数据的...原创 2019-02-18 18:29:31 · 1033 阅读 · 4 评论 -
大数据Hive之查询时报错Outofmemory
文章目录1. 什么时候可能会发生这样的错误?2. 如何解决这个Outofmemory的错误呢?2.1 先分析问题,然后确定大概的解决方向:2.2 具体的解决方法如下(hive-env.sh文件):2.2.1 增加JVM内存大小2.2.2 增加hadoop的溢出大小Hadoop_HeapSize2.2.3 在 HADOOP_OPTS 行中添加垃圾收集器3. 结果1. 什么时候可能会发生这样的错误...原创 2019-02-18 17:38:31 · 1350 阅读 · 0 评论 -
大数据hive之hive连接mysql并启动,出现SSL警告,如何解决?
文章目录1. 问题2. 如何解决?2.1 设置useSSL=false2.2 设置useSSL = true1. 问题Hive能正常执行任务,但出现“WARN: Establishing SSL connection without server’s identity verification is not recommended.”意思就是:不建议不使用服务器身份验证建立SSL连接。产生...原创 2018-12-12 16:58:49 · 1949 阅读 · 0 评论 -
大数据BigData之如何配置hive连接mysql,把mysql作为元数据库?
如何配置hive连接mysql,把mysql作为元数据库?文章目录1.增加mysql数据库的连接配置2.修改临时文件夹的路径3.修改 hive-config.sh4.下载MySQL JDBC驱动5.在HDFS中创建目录和设置权限6.初始化元数据库1.增加mysql数据库的连接配置<property> <name>javax.jdo.option.Connecti...原创 2018-12-20 17:45:20 · 291 阅读 · 0 评论 -
大数据BigData之 hive command line 如何 debug?
大数据BigData之 hive command line 如何 debug?或是说如何修改日志的输出级别?(设置成 Debug 级别)文章目录1. 运行 hive cli 的时候加上日志参数2. 在xml配置文件设定日志输出级别在 hive 中,使用的是 Log4j 来输出日志,所以我们要修改的是 log4j 的输出日志级别。默认情况下, CLI 是不能将日志信息输出到控制台的。在 ...原创 2018-12-20 18:52:31 · 148 阅读 · 0 评论 -
大数据hive之启动报错:system:java.io.tmpdir
解决方法:在hive下创建个tmpdir目录在hive-site.xml中添加以下内容<property> <name>system:java.io.tmpdir</name> <value>/home/root/hdp/tmpdir</value></property> <prope...原创 2018-12-10 17:08:00 · 1712 阅读 · 0 评论 -
大数据之hadoop / hive / hbase 的区别是什么?有什么应用场景?
文章目录1. hadoop2. hive3. hbase总结1. hadoop它是一个分布式计算+分布式文件系统,前者其实就是 MapReduce,后者是 HDFS 。后者可以独立运行,前者可以选择性使用,也可以不使用2. hive通俗的说是一个数据仓库,仓库中的数据是被hdfs管理的数据文件,它支持类似sql语句的功能,你可以通过该语句完成分布式环境下的计算功能,hive会把语句转换...原创 2018-12-10 18:55:58 · 1036 阅读 · 0 评论 -
大数据BigData之hadoop连接Amazon s3时,core-site.xml文件该怎么配置?
hadoop连接Amazon s3时,core-site.xml文件该怎么配置?文章目录1. 注意2. s3的配置模板3. s3n的配置模板4. s3a的配置模板5. 必须要添加的配置5.1 配置 endpoint5.2 禁用ssl1. 注意具体配置要求如下:1.首先,要确认自己使用的是 s3 服务接口,还是s3n、s3a,然后在下面三个模板中选择一个添加到你的 core-site.xm...原创 2018-12-21 17:29:37 · 3453 阅读 · 4 评论 -
大数据BigData之hive怎么样才能够直接读取amazon s3中的.gz文件数据呢?
在看这篇文章之前,请确保以下几件事安装好 jdk安装好 hadoop (记得准备好需要用到的jar包)安装好 hive (记得配置元数据库、准备好需要用到的jar包)配置好 hadoop 连接 amazon s3 的文件配置好 hive 连接 amazon s3 的文件配置好 hive 与 hadoop 之间的连接hive怎么样才能够直接读取amazon s3中的.gz文件数...原创 2019-10-12 17:33:52 · 1454 阅读 · 2 评论 -
大数据BigData之spark如何读取Amazon s3桶的数据?
文章目录1. 注意,我的环境跟你的环境一样吗?2. 如何执行spark-shell脚本?3. 如何使用 spark-shell?Scala编程语言附:使用到的包1. aws java sdk jar包版本(aws服务)2. hadoop aws 包版本(aws服务)3. jackson包版本(数据绑定、注解)1. 注意,我的环境跟你的环境一样吗?环境:原生 spark (版本到时候补,不在工...原创 2019-10-12 17:33:44 · 1703 阅读 · 0 评论 -
大数据BigData之如何安装配置hive环境?
在安装hive之前,希望你已经装好:Javahadoop文章目录1. 配置环境变量2. 配置 hive-env.sh 文件3. 配置 hive-site.xml4. /hive/conf/下,找到hive-site.xml配置文件4.1 需要修改临时文件夹的路径,改为正确的路径4.2 如果没有此路径,则自己创建5. 修改 hive-config.sh1. 配置环境变量执行以下命令...原创 2018-12-18 22:35:32 · 185 阅读 · 0 评论 -
大数据BigData之hive的执行过程是怎么样的?(概括)
hive的执行过程,大体上是这样的:hive 客户端(一般是hive cli,入口类为CliDriver)把HQL翻译成MR执行计划(Operator树)并序列化到 plan.xmlplan.xml 上传到hdfs上hive 客户端新起一进程,提交MapReduce程序,其入口类为ExecDriver,ExecDriver的Mapper会在setup阶段读取plan.xml,反序列化成Op...原创 2018-12-18 22:44:17 · 146 阅读 · 0 评论 -
大数据BigData之hive External Table的一些特点
External Table 只有一个过程,加载数据和创建表同时完成(CREATE EXTERNAL TABLE ……LOCATION),实际数据是存储在 LOCATION 后面指定的 HDFS 路径中,并不会移动到数据仓库目录中。当删除一个 External Table 时,仅删除hive的元数据,不会删除hdfs上对应的文件。...原创 2019-01-13 18:06:21 · 186 阅读 · 0 评论 -
大数据BigData之hive与RMDBS的对比
/HiveRMDBS查询语言HQLSQL数据延迟HDFSRaw Device or Local FS执行MapReduceExcutor执行延迟高低处理数据规模大小索引0.8版本后加入位图索引有复杂的索引...原创 2019-01-13 18:11:08 · 1110 阅读 · 0 评论 -
大数据Hive之Hive加载外部数据时做了些什么?
文章目录1. 简介2. DEBUG日志详情3. 结论1. 简介下面是在hive debug模式下,截取的一些关键日志内容(按时间顺序记录的,并加了些注释)如果不想看杂乱的日志文件,我也可以直接告诉你结果。Hive load外部数据时,先读取外部数据,然后把外部数据 copy 到了本地 hive/warehouse 目录下,最后把外部数据 delete 掉(这操作真骚,Hive为什么要这么...原创 2019-01-13 18:23:28 · 140 阅读 · 0 评论 -
大数据MongoDB之添加用户名和密码
文章目录1. 进入mongodb数据库2. 查看数据库并使用3. 创建用户3.1 反馈1. 进入mongodb数据库$ mongo2. 查看数据库并使用show dbsuse admin3. 创建用户注意:[* ]内的都是参数,根据自己所对应的去填写db.createUser({... user: 'root',... pwd: 'root',... roles: ...原创 2019-02-21 16:06:55 · 463 阅读 · 0 评论 -
云计算存储之Amazon s3、s3a、s3n的区别是什么?
文章目录s3、s3a、s3ns3基于块, s3n / s3a 基于对象s3a 是 s3n 的升级版详情请阅读...s3、s3a、s3ns3://bucket/s3a://bucket/s3n://bucket/URI 上字母的改变(-,a,n)带来的差距是很大的,因为不同的 url 会使用不同的软件与 S3 进行连接。这有点像 http 和 https 之间的区别——虽然只是一个字母...原创 2018-12-12 14:10:54 · 6489 阅读 · 0 评论