![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
技术学习分享
文章平均质量分 87
Shaw_Bigdata
追求最新技术,创新最好科技- -走向大数据时代。
展开
-
数据仓库-数据模型建设方法总结(全)
数据建模、数据仓库原创 2023-01-29 14:58:40 · 4394 阅读 · 0 评论 -
java jvm gc 回收机制和原理
java;jvm;gc;垃圾回收原创 2022-02-11 15:21:53 · 2335 阅读 · 0 评论 -
spark参数调优
spark调优、大数据调优、spark优化原创 2022-02-09 17:24:52 · 709 阅读 · 0 评论 -
airflow安装部署(python)
在线安装Airflow组件版本:Python 3.7.2Apache airflow 1.10.1Mysql 5.7.24CentOs7.8Python安装Centos7中,Python默认是安装的,输入python 直接可以查看版本号,入下图注意: 如果本机安装了python2,尽量不要管它,使用python3运行python脚本就好,因为可能有程序依赖目前的python2环境,比如yum!不要动现有的python2环境!安装python3依赖命令:.原创 2020-05-24 21:48:43 · 3883 阅读 · 1 评论 -
Elasticsearch等同八大全能型的数据产品对比
Elasticseach从做搜索引擎开始,到现在主攻大数据分析领域,逐步进化成了一个全能型的数据产品,在Elasticsearch诸多优秀的功能中,与很多数据产品有越来越多的交叉竞争,有的功能很有特色,有的功能只是附带,了解这些产品特点有助于更好的应用于业务需求。1、LuceneLucene是一个搜索的核心库,Elastic也是在Lucene基础之上构建,它们之间的竞争关系是由Luce...原创 2020-05-08 09:47:08 · 4789 阅读 · 2 评论 -
谈flink实时流处理
背景:数据量激增传统的时代,不同的业务场景都有大量的业务数据产生,对于这些不断产生的数据应该如何进行有效地处理,成为当下大多数公司所面临的问题。但随着数据的不断增长,新技术的不断发展,人们逐渐意识到对实时数据处理的重要性,企业需要能够同时支持高吞吐、低延迟、高性能的流处理技术来处理日益增长的数据。相对于传统的数据处理模式,流式数据处理则有着更高的处理效率和成本控制。Apache F...原创 2020-04-23 09:48:00 · 1483 阅读 · 0 评论 -
大数据架构体系(数据仓库)
1、传统大数据架构 优点 缺点 使用场景 简单,易懂,对于BI系统来说,基本思想没有发生变化,变化的仅仅是技术选型,用大数据架构替换掉BI的组件 1、没有BI下如此完备的Cube架构,虽然目前有kylin,但是kylin的局限性非常明显,远远没有BI下的Cube的灵活度和稳定度,因此对业务支撑的灵活...原创 2020-03-20 16:07:11 · 2339 阅读 · 0 评论 -
javaAPI-Hbase异步之批量高效写入数据
package cn.ngsoc.hbase.util; import org.apache.commons.lang.StringUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;impor...原创 2018-07-26 15:56:46 · 6778 阅读 · 0 评论 -
linux查看系统信息命令
系统# uname -a # 查看内核/操作系统/CPU信息# head -n 1 /etc/issue # 查看操作系统版本# cat /proc/cpuinfo # 查看CPU信息# hostname # 查看计算机名# lspci -tv # 列出所有PCI设备# lsusb -tv ...原创 2018-07-09 14:17:24 · 215 阅读 · 0 评论 -
基于ambari搭建hadoop生态圈大数据组件
Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。原创 2018-01-22 14:18:42 · 14038 阅读 · 2 评论 -
hadoop2.6.0搭建(简洁明了10分钟完全搞定)
hadoop2.6环境搭建1,准备环境:虚拟机hadoop01,修改ip地址master (192.168.111.10)slaves1(192.168.111.11) slave2192.168.111.12) 2,修改主机名字sudo gedit /etc/hostname(三个主机都要该)一、安装jdk(1.7) 注意:jdk版本必须要和系统原创 2017-08-06 10:15:12 · 1386 阅读 · 1 评论 -
mule使用案例企业服务总线ESB案例activeMQ转换成xml
企业服务总线mule,esb简单例子介绍,学习过程分享。网上例子介绍,建议可以先看看官方文档。原创 2017-11-01 11:40:41 · 1154 阅读 · 1 评论 -
windows环境下java开发连接linux环境的hbase数据获取CURD
单节点集群测试初始化连接/** * * 操作hbase数据库简单查询例子 * Created by wan on 17-11-7. */public class HbaseTest {public static Configuration conf; static { conf = HBaseConfiguration.c原创 2017-11-07 12:30:18 · 901 阅读 · 0 评论 -
logstash传输自定义字段数据到hdfs进行分年月日分区,并且hive可以通过hiveQL快速查询数据
logstash传输自定义字段数据到hdfs进行分年月日分区,并且hive可以通过hiveQL快速查询数据,附带代码原创 2017-07-06 16:27:26 · 3248 阅读 · 1 评论 -
logstash使用webhdfs插件指定输出字段存储数据到hdfs时间分层(还能保留原来数据)
基于项目新搭建环境-->部分工具版本hadoop 2.6.5 ;hive-1.2.1logstash 2.4.0; impala-2.8; elasticsesarch-5.4.1; spark-2.1.1; scala 2.12.2jdk1.8;kafka 2.10;redis-3.0.7;zookeeper-3.4正文:一个简单需求,就是通过原创 2017-07-07 09:57:02 · 2101 阅读 · 0 评论 -
Spark On YARN部署模式下的内存分配情况
本文主要了解Spark On YARN部署模式下的内存分配情况,因为没有深入研究Spark的源代码,所以只能根据日志去看相关的源代码,从而了解“为什么会这样,为什么会那样”。说明按照Spark应用程序中的driver分布方式不同,Spark on YARN有两种模式: yarn-client模式、yarn-cluster模式。当在YARN上运行Spark作业,每个Spark原创 2017-08-02 11:30:13 · 871 阅读 · 0 评论 -
Spark调优 Spark Jobs 性能调优
调试资源分配Spark 的用户邮件邮件列表中经常会出现 “我有一个500个节点的集群,为什么但是我的应用一次只有两个 task 在执行”,鉴于 Spark 控制资源使用的参数的数量,这些问题不应该出现。但是在本章中,你将学会压榨出你集群的每一分资源。推荐的配置将根据不同的集群管理系统( YARN、Mesos、Spark Standalone)而有所不同,我们将主要集中在 YARN 上,原创 2017-08-04 14:22:51 · 466 阅读 · 0 评论 -
hive、mysql搭建(简洁明了5分钟完全搞定)
五、hive的安装(不同版本的hadoop尽量找相对应hive版本)1、下载hive安装包---apache-hive-1.1.1-bin.tar2、解压安装到opt下面 tar -zxvf apache-hive-1.1.1-bin.tar -C ~/opt/3、配置环境变量sudo gedit /etc/profile在下面增加export原创 2017-08-19 08:36:06 · 2083 阅读 · 0 评论 -
kafka集群搭建和参数详细解析
kafka集群搭建,配置参数详细,快速完成,并且附带检测原创 2017-08-19 11:58:25 · 638 阅读 · 0 评论 -
elasticsearch集群快速上手搭建
集群搭建ElasticSearch的集群我还是以elasticsearch-2.3.1版本为例。在开始集群搭建之前,我先给大家一点建议,在看elasticsearch-2.3.1的配置文件之前,先看elasticsearch低版本的配置文件,例如:1.6,因为低版本的配置文件的英文解释比较多,而且比较透彻,学习更加简单。下面我们来搭建一个简单的集群。下载es 链接(http://d原创 2017-08-19 16:20:33 · 289 阅读 · 0 评论 -
spark-1.2.0 集群环境搭建(完整一套)
spark-1.2.0 集群环境搭建(sprak集群依赖hadoop至上,用的是分布式APACHE系统HDFS)(此处搭建承接文档hadoop搭建,服务地址一样需要修改配置,下面附链接)一、安装jdk(1.7)------查看hadoop环境配置文件里面的jdk配置(一样)二、ssh免验证---------查看hadoop环境配置文件里面的ssh免验证(一样)原创 2017-08-20 10:26:50 · 442 阅读 · 0 评论 -
Linux查看物理CPU个数、核数、逻辑CPU个数
# 总核数 = 物理CPU个数 X 每颗物理CPU的核数 # 总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数 # 查看物理CPU个数 cat /proc/cpuinfo| grep "physical id"| sort| uniq| wc -l # 查看每个物理CPU中core的个数(即核数) cat /proc/cpuinfo|原创 2017-08-06 09:53:49 · 355 阅读 · 0 评论 -
filebeat接入数据kafka
官方最新下载filebeat https://www.elastic.co/products/beatstar -zxvf filebeat-5.5.2-linux-x86_64.tar.gzcd filebeat-5.5.2-linux-x86_64filebeat主要是对配置文件filebeat.yml 进行修改#==============原创 2017-09-06 17:14:02 · 1474 阅读 · 0 评论 -
winlogbeat监听windows日志到kafka、hdfs,不同层级取数据
winlogbeat监听windows日志到kafka,查询kafka里面的topic数据,以及从kafka中接入数据到hdfs、logstash不同层级取数据,过滤message.原创 2017-07-10 16:51:05 · 7206 阅读 · 1 评论