大数据
waylyw
数据指南 大数据指南
展开
-
CDH集群时间同步 (测试 仿真 生产三个集群均实现)
背景某不知名小券商,集群设置的定时任务总是在非交易日运行,定位到是集群时间不一致导致于是着手对公司三套CDH集群(测试、仿真、生产)的时间进行同步设置搜索参考了很多时间同步相关的博客,主要是使用ntp时间同步软件进行,这里不在多说,下面介绍一种较为简单粗暴的方式解决过程:1、角色说明服务器 A:可用来同步时间的时间服务器,即它的时间是准确的服务器B:CDH集群中充当时间服务器节点,因为B要同步A的时间服务器其他节点:即CDH集群中除B之外的所有节点2、具体过程确保1中原创 2021-09-26 17:46:18 · 804 阅读 · 0 评论 -
maven添加依赖无法加载 报错main java.lang.NoClassDefFoundError
背景:spark-sql开发时,在pom.xml文件添加如下依赖<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <version>2.1.1</version> <scope>provided</scope></dependen.原创 2021-05-27 11:28:22 · 261 阅读 · 0 评论 -
kafka集群开启后自动挂掉
问题:开启kafka集群后,大概不到一分钟后便挂掉个人解决方法:1、开启zookeeper集群后,删除已经创建的kafka节点尤其是brokers节点目录2、勿忘修改kafka集群节点的每个id原创 2021-04-23 17:13:37 · 788 阅读 · 0 评论 -
flume实战:监控文件所追加内容
一:agent配置文件内容# 声明agenta1.sources = r1a1.sinks = k1a1.channels = c1# 监控test.log文件追加内容a1.sources.r1.type = execa1.sources.r1.command = tail -f /opt/software/flume/datas/test.log# Describe the sinka1.sinks.k1.type = logger# Use a channel which原创 2021-03-13 14:04:06 · 287 阅读 · 0 评论 -
flume实战:netcat端口数据监听
一:环境说明jdk版本:jdk-8u171-linux-x64.tar.gzflume版本:apache-flume-1.7.0-bin.tar.gz需要的小伙伴请自行下载解压并配置,这里不再阐述,若有问题,请评论或移步到公号留言二:实战示例1、编写配置文件此处可先在flume安装目录下创建job文件夹,后续编辑的agent配置文件可放在该文件夹下,(文件夹及文件名自定义即可,保持一致)# 声明一个agent:a1,并分别指定其三大组件的名字a1.sources = r1a原创 2021-03-13 11:57:39 · 1047 阅读 · 1 评论 -
spark log4j.properties配置文件 输出日志级别修改
开发工具:IDEA开发环境:win10本地环境,spark运行spark程序时,控制台总会输出很多红色日志,默认日志输出级别为INFO,可通过以下两种方法进行日志级别的修改方法一:在代码块中进行日志级别的设置 val sc = SparkSession.builder() .config("spark.testing.memory","2000000000") .master("local[*]") .appName("aiwen.com")原创 2021-01-16 15:38:26 · 1036 阅读 · 0 评论 -
已解决:Exception: Python in worker has different version 2.7 than that in driver 3.6
已解决:Exception: Python in worker has different version 2.7 than that in driver 3.6, PySpark cannot run with different minor versions.Please check environment variables PYSPARK_PYTHON and PYSPARK_DRIVER_PYTHON are correctly set.在阿里云服务器上运行pyspark模块程序时,核心报错如原创 2020-12-17 15:51:40 · 5634 阅读 · 0 评论 -
004 Hadoop概述、背景及其优势
1 Hadoop是什么Hadoop是一个由Apache基金会所开发的分布式系统基础架构,主要解决海量数据的存储和海量数据的分析计算问题,广义上来说,Hadoop通常是指一个更广泛的概念--Hadoop生态圈。2 Hadoop发展历史Lucene框架是Doug Cutting开创的开源软件,用Java代码书写,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎。2001年年底Lucene成为Apache基金会的一个子项目。对于海量数据的场景,Lu原创 2020-11-15 19:45:32 · 641 阅读 · 0 评论 -
002 大数据部门业务流程及组织结构
1 大数据部门业务流程分析产品人员提需求(统计总用户数、日活跃用户数、回流用户数等) ====> 数据部门搭建数据平台、分析数据指标 ====> 数据可视化(报表展示、邮件发送、大屏展示等)2 大数据部门组织结构大数据部门组织结构,适用于大中型企业:2.1 平台组:Hadoop、Flume、Kafka、Hbase、Spark等框架平台搭建,集群性能监控,集群性能调优2.2 数据仓库组:ETL工程师-数据清洗,Hive工程师-数据分析数据仓库建模2.3 数据挖掘组:算法工程原创 2020-11-15 15:38:40 · 1234 阅读 · 0 评论 -
001 大数据概念
1.1 大数据概念大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量‘高增长率和多样化的信息资产。主要解决海量数据数据的存储和海量数据的分析计算问题按顺序给出数据存储单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。1.2 大数据特点(4V)Volume(大量)截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上人类总共说原创 2020-11-14 21:34:10 · 139 阅读 · 0 评论 -
大数据应用之啤酒尿布
今日分享热词:数据挖掘 数据分析数据挖掘关于数据挖掘(Data mining)的概念定义,小编也是在网上爬了很久,弱水三千,咱就舀几瓢来喝:1、首先是智库百科上的定义,从两个角度来说技术角度:所谓的数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。什么个意思呢?现在数据库中有无数T/P/E...这么多的独立的数据,去通过挖掘来找出存在关系的数据或者说数据中的关系。问题来了,如何去找,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,利原创 2020-10-31 20:51:13 · 1912 阅读 · 0 评论 -
003 大数据4V特征
今日分享:大数据一起来了解下大数据的前世今生:一:大数据的定义大数据这一词,在上世纪80年代就有美国人曾提出来,直到2008年9月,《科学》杂志发表文章“Big Data: Science in thePetabyte Era”,“大数据”这个词才开始广泛传播。小编从网上找了以下几个关于大数据的定义:1:Wikipedia:Big data is a term for data sets that are so large or complex that traditiona...原创 2020-10-31 20:37:38 · 1462 阅读 · 0 评论