大数据学习
数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
孙行者Monkey
1.每天进步一丢丢,做个有趣的人 2.种一棵树最好时间是十年前,其次是现在 3.每个人都有一个觉醒期,但觉醒的早晚决定个人的命运 4.知行合一,知道了不去做,等于不知道
展开
-
DBeaver连接不上clickhouse
一、问题描述打开dbeaver,出现can‘t load driver ru.yandex.clickhouse.ClickHouseDriver二、百度找到jar包的坐标我去github 找到了这个坐标三、配置驱动右键点击某个clickhouse连接 ,点编辑连接 ,点编辑驱动设置,再点添加工件点击确定后,点测试链接,完美连接,弹出下载页后,下载对应的驱动,可以尽情玩CK啦!!!!!TIP:最好是配置一下阿里的maven,下载快一点,依次点击dbeaver的如下1、窗口–>首选原创 2021-01-14 09:13:42 · 11148 阅读 · 0 评论 -
实用 | Dataworks的使用详细说明
一、开通Dataworks(1)百度搜Dataworks,进入如下页面,点击立即开通(2) 这里要选好自己想要的配置,这里展示我之前的配置解决方案:选DataWorks+MaxCompute组合产品DataWorks:标准版购买时长:1年MaxCompute:按量付费(3)开通好之后,进入Dataworks的控制台,点击dataworks首页二、进入dataworks首页三、数据开发(1)点击数据开发,进入如下图(2)新建业务流程(3)红色框的是离线计算常用的节点,可以拖原创 2020-12-01 15:26:41 · 9759 阅读 · 0 评论 -
实用 | 用户画像:标签化就是数据的抽象能力
王兴说过,我们已经进入到互联网的下半场。在上半场,也就是早期的互联网时代,你永远不知道在对面坐的是什么样的人。那个年代大部分人还是 QQ 的早期用户。在下半场,互联网公司已经不新鲜了,大部分公司已经互联网化。他们已经在用网络进行产品宣传,使用电商销售自己的商品。这两年引领下半场发展的是那些在讲 “大数据”“赋能”的企业,他们有数据,有用户。通过大数据告诉政府该如何智慧地管理交通,做城市规划。通过消费数据分析,告诉企业该在什么时间生产什么产品,以最大化地满足用户的需求。通过生活大...原创 2020-07-29 16:53:07 · 532 阅读 · 0 评论 -
实用 | 安装python模块socket.timeout: The read operation timed out解决方案
1、使用pip安装第三方库过慢导致超时无法安装: pip install pandas出现异常: socket.timeout: The read operation timed out2、原因: pip下载的时国外的资源,速度过慢,应该切换至国内镜像3、解决方法: 更换 pip 源自国内镜像,在 pip install 后面添加-i https://pypi.tuna.tsinghua.edu.cn/simple 上面蓝色部分是镜像地址,网上可以...原创 2020-07-24 14:56:35 · 6204 阅读 · 1 评论 -
实用 | 解决Sublime Text3的import无法导入Python模块
一、找到Preferances–>Brows packages,进入文件夹下,新建文件夹,命名为python。二、进入python文件夹,新建文档,命名为Completion Rules.tmPreferences。三、编辑文档,添加内容如下:<?xml version="1.0" encoding="UTF-8"?><!DOCTYPE plist PUBLIC "-//Apple//DTD PLIST 1.0//EN" "http://www.apple.com原创 2020-07-20 09:42:57 · 4659 阅读 · 5 评论 -
实用 | 数据挖掘的十大算法
为了进行数据挖掘任务,数据科学家们提出了各种模型,在众多的数据挖掘模型中,国际权威的学术组织 ICDM (the IEEE International Conference on Data Mining)评选出了十大经典的算法。按照不同的目的,我可以将这些算法分成四类,以便你更好的理解。l 分类算法:C4.5,朴素贝叶斯(Naive Bayes),SVM,KNN,Adaboost,CARTl 聚类算法:K-Means,EMl 关联分析:Aprioril 连接分析:PageRank.原创 2020-07-16 16:01:03 · 1386 阅读 · 0 评论 -
彪悍给力的分析型数据库~ClickHouse
本文内容较长,分为三个部分:走马观花,死而后生,遥指杏花村;第一章,走马观花,初步了解一下基本特性;第二章,死而后生,介绍ClickHouse的技术架构演化的今生前世;第三章,遥指杏花村,介绍一些参考资料,包括一些俄文资料。第一章,走马观花俄罗斯的‘百度’叫做Yandex,覆盖了俄语搜索超过68%的市场,有俄语的地方就有Yandex;有中文的地方,就有百度么?好像不一定)Yandex在2016年6月15日开源了一个数据分析的数据库,名字叫做ClickHouse,这对保守俄罗斯人来说是..原创 2020-06-29 10:48:27 · 1170 阅读 · 1 评论 -
实用 | Sqoop数据导出一致性问题
1)场景1:如Sqoop在导出到Mysql时,使用4个Map任务,过程中有2个任务失败,那此时MySQL中存储了另外两个Map任务导入的数据,此时老板正好看到了这个报表数据。而开发工程师发现任务失败后,会调试问题并最终将全部数据正确的导入MySQL,那后面老板再次看报表数据,发现本次看到的数据与之前的不一致,这在生产环境是不允许的。官网:http://sqoop.apache.org/docs...原创 2020-02-09 21:15:05 · 1661 阅读 · 0 评论 -
sqoop导出到mysql遇到哪些问题
关于导出update还是insert的问题--update-mode:updateonly 只更新,无法插入新数据allowinsert 允许新增--update-key:允许更新的情况下,指定哪些字段匹配视为同一条数据,进行更新而不增加。多个字段用逗号分隔。--input-null-string和--input-null-non-string:分...原创 2020-02-09 21:13:18 · 504 阅读 · 0 评论 -
实用 | Hive中case when的两种语法
两种表达方式是等效的方法一:casewhen tb1.os = 'android' then 'android'when tb1.os = 'ios' then 'iPhone'else 'PC'end as os,方法二:case tb1.oswhen 'android' then 'android'when 'ios' then 'iPhone'el...原创 2020-01-06 15:21:28 · 565 阅读 · 0 评论 -
Hive的数据倾斜以及优化策略
一、hive的数据倾斜介绍:只要在分布式一定有shuffle,避免不了出现数据倾斜,在混淆数据的过程中出现数据分布不均匀。比如:在MR编程中reducetask阶中的数据的大小不一致,即很多的数据集中到了一个reducetask中,hive的数据倾斜就是mapreduce的数据倾斜 maptask reducetask最后就是reducetask阶段的数据倾斜。不会产生数据倾斜的场景: ...原创 2020-01-06 14:56:18 · 403 阅读 · 0 评论 -
电商数据仓库的架构、模型与应用实践
一. 数据仓库概念二. 项目需求及架构设计1. 项目需求分析2.项目框架2.1技术选型2.2 系统数据流程设计2.3 框架版本选型2.4 服务器选型2.5 集群资源规划设计2)测试集群服务器规划 服务名称 子服务 服务器 hadoop102 服务器...原创 2019-12-28 14:20:44 · 4163 阅读 · 1 评论 -
读写 JSON 格式文件
在ETL中,Spark经常扮演T的职务, 也就是进行数据清洗和数据转换.在业务系统中,JSON是一个非常常见的数据格式, 在前后端交互的时候也往往会使用JSON, 所以从业务系统获取的数据很大可能性是使用JSON格式, 所以就需要Spark能够支持 JSON 格式文件的读取读写JSON文件将要 Dataset 保存为 JSON 格式的文件比...原创 2019-12-13 21:25:33 · 574 阅读 · 0 评论 -
Catalyst 优化器
为了解决过多依赖Hive的问题,SparkSQL使用了一个新的SQL优化器替代Hive中的优化器, 这个优化器就是Catalyst, 整个SparkSQL的架构大致如下1.API层简单的说就是Spark会通过一些API接受SQL语句2.收到SQL语句以后, 将其交给Catalyst,Catalyst负责解析SQL, 生成执行计划等3...原创 2019-12-12 21:08:03 · 1206 阅读 · 1 评论 -
实用 | RDD依赖关系
一、Lineage RDD只支持粗粒度转换,即在大量记录上执行的单个操作。将创建RDD的一系列Lineage(血统)记录下来,以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为,当该RDD的部分分区数据丢失时,它可以根据这些信息来重新运算和恢复丢失的数据分区。(1)读取一个HDFS文件并将其中内容映射成一个个元组scala> v...原创 2019-11-28 17:46:37 · 407 阅读 · 0 评论 -
kafka的架构图
一、官方文档架构图:二、kafka四大核心1、生产者API允许应用程序发布记录流至一个或者多个kafka的主题(topics)。2、消费者API允许应用程序订阅一个或者多个主题,并处理这些主题接收到的记录流。3、StreamsAPI允许应用程序充当流处理器(streamprocessor),从一个或者多个主题获取输入流,并生产一个输出流到一个或者多个主题,能够有...原创 2019-11-26 21:25:36 · 4334 阅读 · 0 评论 -
通过bulkload的方式批量加载数据到HBase
加载数据到HBase当中去的方式多种多样,我们可以使用HBase的javaAPI或者使用sqoop将我们的数据写入或者导入到HBase当中去,但是这些方式不是慢就是在导入的过程的占用Region资源导致效率低下,我们也可以通过MR的程序,将我们的数据直接转换成HBase的最终存储格式HFile,然后直接load数据到HBase当中去即可 HBase中每张Table在根目...原创 2019-11-25 21:28:11 · 605 阅读 · 0 评论 -
Scala 编译完生成两个class文件的区别
编写一个_04ClassObjectDemo.scala文件object _04ClassObjectDemo{ // 1. 创建一个Person类,添加成员变量 class Person { var name:String = _ var age:Int = _ } def main(args: Array[String]): Unit = { ...原创 2019-11-17 11:00:55 · 677 阅读 · 0 评论 -
实用 | Spark_Yarn模式
一、概述Spark客户端直接连接Yarn,不需要额外构建Spark集群。有yarn-client和yarn-cluster两种模式,主要区别在于:Driver程序的运行节点。yarn-client:Driver程序运行在客户端,适用于交互、调试,希望立即看到app的输出yarn-cluster:Driver程序运行在由RM(ResourceManager)启动的AP(APPMaster...原创 2019-11-15 20:53:55 · 198 阅读 · 0 评论 -
match模式匹配
一、基本结束Scala 中的模式匹配类似于 Java 中的 switch 语法,但是更加强大。模式匹配语法中,采用 match 关键字声明,每个分支采用 case 关键字进行声明,当需要匹配时,会从第一个 case 分支开始,如果匹配成功,那么执行对应的逻辑代码,如果匹配不成功,继续执行下一个分支进行判断。如果所有 case 都不匹配,那么会执行 case _ 分支,类似于 Java 中 ...原创 2019-11-15 15:11:22 · 1398 阅读 · 0 评论 -
动态地向hadoop集群添加一个新节点
由于hadoop集群的内存和负载有限,所以需要添加新的节点来扩充内存,提高mapreduce运行速度一、将namenode节点的hadoop文件目录全部复制到新节点。二、修改每个节点的hosts文件,将节点4的主机名加进去。三、配置ssh免密登录,使得namenode登录新节点的时候不需要输入密码。四、修改各节点的slaves文件,加入新节点的名称。五、单独启动该节点上的Dat...原创 2019-11-02 22:42:06 · 507 阅读 · 0 评论 -
WritableComparable排序
因为map、reduce 之间传递的参数是通过本地持久化来实现,所以需要实现序列化接口。但由于Java的 Serializable接口是一个重量级的API,所以Hadoop自定义一套新的API。 如果传递的参数是基本类型和字符串,可以直接使用Text,LongWritable,IntWritable 。但如果是自定义的 Java Bean,就需要自己实现Writable...原创 2019-10-20 15:00:13 · 468 阅读 · 0 评论 -
实用 | HDFS HA(高可用)
1、 在HDFS 高可用主要解决的是nn的单点故障问题,在该架构中,snn 已不存在2、为了保持 nn 对外提供的服务一致,就必须让2个 nn 的元数据一致,我们可以通过 日志集群 进行数据同步。active nn负责往 QJM 写日志,standby nn负责读取 QJM 的日志。JournalNode 一般是奇数台,当存储的数据达到一半以上,则认为写入日志成功。3、dn...原创 2019-10-17 20:10:57 · 385 阅读 · 0 评论 -
Yarn基本架构&工作机制
YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成YARN基本架构Yarn工作机制工作机制详解:(1)MR程序提交到客户端所在的节点。(2)YarnRunner向ResourceManager申请一个Application。(3)RM将该应用程序的资源路径返回给YarnR...原创 2019-10-17 20:00:26 · 299 阅读 · 0 评论 -
CombineTextInputFormat切片机制
CombineTextInputFormat切片机制 框架默认的TextInputFormat切片机制是对任务按文件规划切片,不管文件多小,都会是一个单独的切片,都会交给一个MapTask,这样如果有大量小文件,就会产生大量的MapTask,处理效率极其低下。1、应用场景: CombineTextInputFormat用于小文件过多的场景,它可以将多个...原创 2019-10-13 21:07:31 · 525 阅读 · 0 评论 -
FileInputFormat切片机制
FileInputFormat切片机制原创 2019-10-12 23:05:43 · 332 阅读 · 0 评论 -
实用 | Job提交流程源码和切片源码详解
Job提交流程源码详解代码:waitForCompletion()submit(); // 1建立连接 connect(); // 1)创建提交Job的代理 new Cluster(getConfiguration()); // (1)判断是本地yarn还是远程 initialize(jobTrackAddr, conf); // 2 提交job ...原创 2019-10-12 22:38:27 · 340 阅读 · 0 评论 -
实用 | 切片与MapTask并行度决定机制
1、影响MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度。2、MapTask并行度决定机制数据块:Block是HDFS物理上把数据分成一块一块。数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。下面是详细的数据切片与MapTask并行度决定机制...原创 2019-10-12 22:32:29 · 292 阅读 · 0 评论 -
解决Hadoop客户端不能连接HDFS的方法(Caused by: java.lang.ClassNotFoundException)
解决Hadoop不能连接HDFS的方法public class HdfsClient{ @Test public void testMkdirs() throws Exception { // 1 获取文件系统 Configuration configuration = new Configuration(); FileSyste...原创 2019-10-08 21:09:15 · 4247 阅读 · 0 评论 -
大数据需要学习哪些技术?
大数据是对海量数据进行存储、计算、统计、分析处理的一系列处理手段,处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据处理手段所无法完成的,其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等,汇集了当前IT领域热门流行的IT技术。想要学好大数据需掌握以下技术:1. Java编程技术Java编程技术是大数据学习的基础,Java是一种强类型语言,拥有...转载 2019-10-06 23:35:35 · 486 阅读 · 0 评论