自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

学海无涯的博客

做一行,学一行,懂一行,爱一行...

  • 博客(150)
  • 资源 (14)
  • 收藏
  • 关注

原创 Nginx+OBS+rtmp+VLC实现视频直播网站

背景本文使用的流媒体服务器的搭建是基于rtmp(Real Time Message Protocol)协议的,rtmp协议是应用层的协议,要依靠底层的传输层协议,比如tcp协议来保证信息传输的可靠性。最后提供了一个不错的测试方案。流媒体服务器依赖的服务,1.nginx 服务器;2.nginx服务器安装需要依赖的服务 OpenSSL、pcre、zlib、 c++、gcc等。服务器环境是Ce...

2020-02-06 11:51:48 3698 1

原创 分布式任务调度平台DolphinScheduler

ApacheDolphinScheduler是一个新一代分布式大数据工作流任务调度系统,致力于“解决大数据任务之间错综复杂的依赖关系,整个数据处理开箱即用”。它以DAG(有向无环图)的方式将任务连接起来,可实时监控任务的运行状态,同时支持重试、从指定节点恢复失败、暂停及Kill任务等操作。目前已经有像IBM、腾讯、美团、360等400多家公司生产上使用。.....................

2022-07-26 11:27:02 1841 1

原创 不同场景下集群环境时间同步问题

1.场景介绍比如说我现在项目部署在若干的服务器上面,然后构成整个集群,如果我们每台服务器的时间不一致,我们在业务代码里面拿到的时间也就不一致,这时候不管我们往数据库插入数据的create_time 还是修改数据update_time 还是我们使用时间计算,定时任务等等都会发生错乱,造成数据错乱,所以我们需要对集群下的服务器时间进行同步。我们对时间同步分为两种情况,一是所有的服务都能连接外网,二就是有一台服务器能够连接外网,其余服务器能够与这台机器内网通信2. 服务器均能连接外网所有机器都能够访问外网

2022-01-04 15:42:55 732

原创 Office破解excel的代码不适用于WPS

破解三部曲1、第一步打开一个空白文档,按 Alt+F11,进入到Office代码模式效果如下:2、第二步3、第三步运行完代码后,密码会在弹窗显示。

2020-08-14 09:17:10 770 1

原创 启动HBase抛出org.apache.hadoop.hbase.ClockOutOfSyncException异常

错误详情:org.apache.hadoop.hbase.ClockOutOfSyncException: org.apache.hadoop.hbase.ClockOutOfSyncException: Server host-31,16020,1515048380697 has been rejected; Reported time is too far out of sync with...

2020-04-14 09:19:04 458

转载 ntpdate解决同步时间报错 the NTP socket is in use, exiting

在HBase启动服务前首先查看集群时间是否同步《第一步》检查是否安装ntpd,ntpdate服务命令为:rpm -qa | grep ntp rpm -qa | grep ntpdate《第二步》如果没有安装上述服务,则使用命令安装命令为:yum install -y ntp yum install -y ntpdate《第三步》启动ntpd服务,同步网络时间ser...

2020-04-14 09:15:26 38311 7

原创 Java和大数据的区别

1架构层面:javaee:三层架构 表现层(web)业务层(service)持久层(dao)大数据:围绕数据 数据采集 --数据存储–数据计算(分析)–数据展示2.技术层面:javaee:成熟 解决方案多 技术点集中大数据:相对年轻 迭代更新快 解决方案相对少 技术相当繁琐 杂 /碎3.开发层面:javaee:代码量很大 偏向业务 运维等任务较少 固定搭配 习惯用法较多大数据:代码...

2019-10-15 15:30:48 536

原创 数据分析系统的流程图及架构图

1、大数据平台网站日志分析系统,项目技术架构图:2、大数据平台网站日志分析系统,流程图解析,整体流程如下:ETL即Hive查询的sql;但是,由于本案例的前提是处理海量数据,因而,流程中各环节所使用的技术则跟传统BI完全不同:1)数据采集:定制开发采集程序,或使用开源框架Flume2)数据预处理:定制开发mapreduce程序运行于hadoop集群3)数据仓库技术:基于hadoop...

2019-08-19 10:27:03 22230

原创 LNMP环境的服务器重启后网站无法访问

原因:MySQL数据库测试不成功或者Nginx服务未设置重启。最终原因定位为Nginx服务未运行,未设置服务器重启后服务自启。解决办法:在/etc/init.d下创建文件nginxvim /etc/init.d/nginx文件内容如下:#!/bin/sh## nginx - this script starts and stops the nginx daemon## chk...

2019-08-16 17:22:39 1084

原创 Linux系统MySQL初始化后运行报错

问题过程:初始化数据库:./mysqld --initialize --user=mysql --basedir=/usr/local/mysql --datadir=/usr/local/mysql/data运行该命令后若出现的报错如下(阿里云CentOS7):error while loading shared libraries: libaio.so.1: cannot open s...

2019-08-14 16:51:29 1388

转载 Spark onYarn集群模式搭建

转载此博主https://blog.csdn.net/qq_21439395/article/details/80678372

2019-07-22 16:54:45 174

原创 Windows系统tomcat服务startup.bat开机自动后台启动

一万匹马在奔腾,本机装了tomcat8,再装tomcat9设置为自动启动,程序开了机就报错,memory leak…jdbc没有注册错误,网上都是扯淡回答。附一个百度经验的方法,停了以前服务里面的tomcat8,设置为手动,注册现有tomcat9为自动。完成!...

2019-07-18 10:16:08 2286

原创 Kylin深入前对多维分析技术概念的理解

一、数据仓库1.数据仓库是面向主题的;数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数据仓库;2.数据仓库是不可更新的,数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询;3.建设步骤:收集和分析业务需求——建立数据模型和数据仓库的物理设计——定义数据源——定义数据源——从操作型数据库中抽取、净...

2019-06-19 10:27:23 636

原创 hive建立内外部表关联HDFS文件

参考此博主文章:https://www.cnblogs.com/fefjay/p/6044474.html一、关于Hive的insert into 和 insert overwrite与数据分区1》数据分区:数据库分区的主要目的是为了在特定的SQL操作中减少数据读写的总量以缩减响应时间,主要包括两种分区形式:水平分区与垂直分区。水平分区是对表进行行分区。而垂直分区是对列进行分区,一般是通过对表...

2019-06-13 15:31:15 3798

转载 SQOOP在Hbase与MySQL互导的替代方案

参照贵博主https://www.jianshu.com/p/3be96085660b

2019-06-10 16:29:35 868

原创 遇到kylin往hdfs写数据权限问题

问题:Caused by:org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException): Permission denied: user=root, access=WRITE, inode="/user/root/.hiveJars":hdfs:hdfs:drwxr-xr-x解决办...

2019-06-05 17:06:35 794

转载 Linux配系统置多台服务器系统时间一致(亲测有效)

1.设置服务器A为时间服务器vim /etc/ntp.conf#最后一行加入下面一行,保存退出server 127.127.1.0#重启时间服务器service ntpd restart2.B服务器同步A服务器的时间[root@bak-thinkee ~]# systemctl stop ntpd.service Shutting down ntpd: ...

2019-05-15 13:03:24 3943

转载 Kylin在Ambari中运行示例的时候报错

新搭建好的ambari集群,然后发现hive启动失败,我也是醉了,报错如下WARNING: Use “yarn jar” to launch YARN applications.Logging initialized using configuration in file:/etc/hive/2.4.0.0-169/0/hive-log4j.propertiesException in th...

2019-05-14 17:27:46 850

转载 BUG: soft lockup - CPU#0 stuck for s!

目前看来就是内核中有死循环!解决BUG: soft lockup - CPU#0 stuck for 61s!问题1 在网上看到很多软死锁的问题,经过对自己程序的理解,结合网上一些相关资料,基本上可以确定是由于内核bug造成的,这个问题基本上在内核模块加载或者卸载的时候发生,对我的模块而言,每次卸载时候发生,其他一切情况均正常,而且在2.6.28和3.0.0内核下均有问题。2 问题描述:2...

2019-05-14 13:04:14 17778

原创 HDP2.6.3.0+Ambari2.6.1大数据平台

一、配置流程http://www.cnblogs.com/zhang-ke/p/8944240.html参照此博主的博客搭建,本人是3台虚拟机,按要求配置好hostname以及hosts,ssh等基础工作。1、虚拟机配置为:4核8G(定义为低配,有条件的多加还是比较好)2、在主服务器上配置HDP的压缩包,从服务器上部署Mysql或者Maria数据库,也可以不配置,默认选择HDP的Postgr...

2019-05-09 14:05:11 1088

转载 MariaDB数据库

一、介绍MariaDB数据库管理系统是MySQL的一个分支,主要由开源社区在维护,采用GPL授权许可 MariaDB的目的是完全兼容MySQL,包括API和命令行,使之能轻松成为MySQL的代替品。在存储引擎方面,使用XtraDB(英语:XtraDB)来代替MySQL的InnoDB。 MariaDB由MySQL的创始人Michael Widenius(英语:Michael Widenius...

2019-04-22 19:45:13 194

原创 Kylin报错汇总

1.问题:java.io.FileNotFoundException: /developer/apache-kylin-2.3.0-bin/tomcat/conf/.keystore (No such file or directory)解决方法:进入tomcat文件的的conf文件,修改server.xml文件,把这些注释掉。 <!-- <Connector port="74...

2019-04-11 11:15:00 903

转载 Kylin介绍

一、定义:Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,它能在亚秒内查询巨大的Hive表。二、Kylin执行查询流程分析Kylin提供了两种执行SQL查询的方式:jdbc访问和http api的访问,前者的实现实际上是在客户端封装了http api请求,然后获取结果再转换成ResultSet...

2019-04-10 17:59:16 867

原创 怎样在不知道端口的情况下,查看服务的端口号

ps -ef | grep 服务名,获取—> pidnestat -nlp | grep pid 获取—> porthttp://ip:port

2019-04-04 16:33:41 5085 1

转载 Kylin使用

1.操作流程:参考此博客:https://www.jianshu.com/p/e6081391ccc22.web端操作配置详情2.1.打开web界面Hostto access: http://hostname:7070/kylinLoginwith username/password: ADMIN/KYLIN2.2样例数据测试启动kylin后,运行bin/sample.sh查看...

2019-04-04 13:55:37 1308

原创 召唤麒麟Kylin成功

感谢此博主文献:https://blog.csdn.net/wzy0623/article/details/51283352zookeeper:zookeeper-3.4.6mysql:5.7hadoop:hadoop-2.7.3java:jdk1.8.0_181hive:apache-hive-1.2.1-binhbase:hbase-1.2.1kylin:apache-kylin...

2019-04-03 16:26:49 194

原创 搭建Superset数据分析与可视化平台

一、功能概述:丰富的数据可视化集易于使用的界面,用于探索和可视化数据创建和共享仪表板与主要身份验证提供程序集成的企业级身份验证(通过Flask AppBuilder进行数据库,OpenID,LDAP,OAuth和REMOTE_USER)可扩展的高粒度安全/权限模型,允许谁可以访问各个功能和数据集的复杂规则一个简单的语义层,允许用户通过定义哪些字段应显示在哪个下拉列表以及哪些聚合和功能...

2019-03-26 16:11:54 2063

转载 kettle下转移mongo中数据到mysql中

Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。作为一个数据抽取工具,在建立数据仓库的过程中,免不了需要从不同的数据源中抽取到集中的数据仓库中,下面就拿mongodb抽取到mysql为例,简述抽取数据的步骤:新建“转换”:test在test中新建“MongoDB Input”,填写数据源信息等,其中有一点比较重要,fi...

2019-03-22 16:11:20 829

原创 H2 Database及java操作

官网http://www.h2database.com/html/quickstart.htmlserver服务式Demopom文件: &amp;lt;dependencies&amp;gt; &amp;lt;!-- Junit 依赖--&amp;gt; &amp;lt;dependency&amp;gt; &amp;lt;groupId&amp;gt;junit&a

2019-01-23 14:53:20 3864

原创 R语言绘制个人优缺点雷达图

以5个变量(即雷达图的5个坐标轴,如表现方面学习能力,工作能力,工作态度,社交能力,团队协作等等)数据为例,第一步:设置各个变量的取值范围(即最小值和最大值,相当于二维图的x轴和y轴的取值范围),代码如下maxmin&lt;-data.frame(学习能力=c(50,0),工作能力=c(50,0),工作态度=c(50,0),社交能力=c(50,0),团队协作=c(50,0))第二步:设置准...

2019-01-21 14:34:30 3557

原创 MDX语句(初学者)

一、什么是MDXMDX语句(MultiDimensionalExpressions)是一种语言,支持多维对象与数据的定义和操作。它可以表达在线分析出来数据卡上的选择、计算和一些元数据定义等操作,并赋予用户表现查询结果的能力。MDX是由Microsoft,Hyperion等公司研究多维查询表达式,是所有OLAP高级分析所采用的核心查询语言。如同SQL查询一样,每个MDX 查询都要求有数据请求(...

2019-01-15 17:16:26 5289 1

转载 Windows7系统安装Kettle

一、Kettle概念Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。...

2019-01-10 17:20:24 840

原创 Memcached入门

一、简介Memcached 是一个高性能的分布式内存对象缓存系统,用于动态Web应用以减轻数据库负载。它通过在内存中缓存数据和对象来减少读取数据库的次数,从而提高动态、数据库驱动网站的速度。Memcached基于一个存储键/值对的hashmap。其守护进程(daemon )是用C写的,但是客户端可以用任何语言来编写,并通过memcached协议与守护进程通信。二、特征memcached作为高...

2018-12-18 16:08:49 269

转载 Storm优化

1、使用rebalance命令动态调整并发度Storm计算以topology为单位,topology提交到Storm集群中运行后,通过storm rebalance 命令可对topology进行动态调整。比如增加Topology的worker数,修改Bolt,Spout的并行执行数量 parallelism等,从而实现topology的动态调整,达到弹性计算的目的。(当然调整时要配合监控模块)...

2018-12-18 15:35:29 365

原创 CentOS 7 Storm集群搭建详细版

一、环境准备操作系统: CentOS7.0Zookeeper版本:zookeeper-3.4.10Storm版本:apache-storm-1.1.0JDK版本:jdk1.8.0_77集群配置如下:二、前提条件2.1.安装配置JDK1.8CentOS7安装JDK1.82.2.安装配置Zookeeper集群CentOS7安装配置zookeeper集群2.3.下载Ap...

2018-12-18 14:44:09 1109

转载 浅谈Hive和HBase有哪些区别与联系及适用场景

在学大数据分析的过程中,Hive和HBase是两个非常重要的内容,对于初学者而言容易混淆。所以比较两者的联系与差别,能够帮助我们对这两个组件有一个清晰的认识和定位。那么,Hive和HBase有哪些区别与联系以及适用于哪些场景呢?首先还要从两者的概念入手。Hive是运行在Hadoop上的一个工具,准确地讲是一个搜索工具。当对海量数据进行搜索时,Hadoop的计算引擎是MapReduce。但是对Ma...

2018-12-14 15:06:06 719

原创 Linux报错ping: https://www.baidu.com: Name or service not known

问题:[root@localhost104 softwares]# ping https://www.baidu.comping: https://www.baidu.com: Name or service not known没有默认的网关,需要添加[root@localhost104 softwares]# route -nKernel IP routing tableDestin...

2018-12-06 14:31:21 7386

原创 CentOS7.X安装mongodb-3.4.2

安装mongodb1、下载安装mongodb3.4.xcd ~wget https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-3.4.2.tgztar -zxvf mongodb-linux-x86_64-3.4.2.tgzcp -r /root/mongodb-linux-x86_64-3.4.2 /usr/local/mongod...

2018-12-06 13:58:07 305

转载 nginx安装插件直接对接kafka集群

安装环境:centos 6.5 64位所需软件版本:jdk1.8.0_171nginx-1.12.2.tar.gzkafka_2.11-0.10.2.1.tgzzookeeper-3.4.5.tar.gzscala-2.11.4.tgz所需服务器:4台(三台安装scala、zookeeper和kafka,一台安装nginx)【A:部署kafka集群】 1.安装jdk yum...

2018-12-06 11:32:10 599

原创 Nginx启动提示找不到libpcre.so.0解决方法

错误提示:error while loading shared libraries: libpcre.so.0: cannot open shared object file: No such file or directory,意思是找不到libpcre.so.1这个模块,而导致启动失败。解决方法如果是32位系统[root@lee ~]# ln -s /usr/local/lib/li...

2018-12-05 17:09:33 12684 1

OBS-Studio-19.0.3-Full-Installer (1).exe

OBS推流工具,可作为视频直播推流。使用的流媒体服务器的搭建是基于rtmp(Real Time Message Protocol)协议的,rtmp协议是应用层的协议,要依靠底层的传输层协议,比如tcp协议来保证信息传输的可靠性。最后提供了一个不错的测试方案。

2020-02-06

flume连hdfs需要的第5个包.rar

commons-io-2.4.jar,hadoop-auth-2.7.3.jar,hadoop-common-2.7.3.jar,hadoop-hdfs-2.7.3.jar,htrace-core-3.1.0-incubating.jar五个包是flume1.7连hdfs所需要的外部包,这是其中一个,其他四个看其他的下载。

2019-10-15

flume连hdfs需要的4个包.rar

commons-io-2.4.jar,hadoop-auth-2.7.3.jar,hadoop-common-2.7.3.jar,hadoop-hdfs-2.7.3.jar,htrace-core-3.1.0-incubating.jar五个包是flume1.7连hdfs所需要的外部包,这是其中一个,其他四个看其他的下载。

2019-10-15

flume连hdfs需要的3个包.rar

commons-io-2.4.jar,hadoop-auth-2.7.3.jar,hadoop-common-2.7.3.jar,hadoop-hdfs-2.7.3.jar,htrace-core-3.1.0-incubating.jar五个包是flume1.7连hdfs所需要的外部包,这是其中一个,其他四个看其他的下载。

2019-10-15

flume连hdfs需要的2个包.rar

commons-io-2.4.jar,hadoop-auth-2.7.3.jar,hadoop-common-2.7.3.jar,hadoop-hdfs-2.7.3.jar,htrace-core-3.1.0-incubating.jar五个包是flume1.7连hdfs所需要的外部包,这是其中一个,其他四个看其他的下载。

2019-10-15

flume连hdfs需要的1个包.rar

commons-io-2.4.jar,hadoop-auth-2.7.3.jar,hadoop-common-2.7.3.jar,hadoop-hdfs-2.7.3.jar,htrace-core-3.1.0-incubating.jar五个包是flume1.7连hdfs所需要的外部包,这是其中一个,其他四个看其他的下载。

2019-10-15

02_大数据技术之Hadoop.rar

详细的大数据指导视频,资料,笔记,内存是15G,看的如果好的话加我联系方式,继续和我来拿资源。

2019-08-02

IDEA相关资料.rar

开发工具IDEA的详细操作手册,包括代码编写步骤,快捷键等说明,绝对值,不值不给分。

2019-08-02

kafka整合nginx

测试过的代码,kafka整合nginx一起使用。

2019-01-22

录屏无水印

解压完成后直接运行exe文件,一款非常好的屏幕截图软件,该软件拥有不规则抓图、滚动抓图、活动窗口抓图、图片简单处理、屏幕录制等很多很多实用的功能,本质上是一款图像软件,具有很棒的图像浏览、编辑和抓屏工具,支持包括BMP、JPEG、JPEG 2000、GIF、PNG、PCX、TIFF、WMF、ICO 和TGA在内的所有主流图片格式。

2018-11-20

spark连接mongodb

主要是spark 用JAVA语言连接mysql , mongodb 数据库的 CRUD 例子;附件有运行使用的截图,运行入口在Test目录的测试用例;

2018-10-22

sqoop学习资源

sqoop技术的文档以及代码统一整理,详细且实用,快来下载吧。

2018-10-15

TCP数据发送端

好用不贵,用于Spark Streaming处理实时数据,TCP发送端作为数据源生产数据。

2018-10-15

transformation、action算子代码示例

适合新手练习,大数据的核心内容Spark Core算子操作。

2018-10-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除