![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 51
hy1568786
码中问道
展开
-
一篇文章看懂大数据的5大关键技术
大数据技术,就是从各种类型的数据中快速获得有价值信息的技术。大数据领域已经涌现出了大量新的技术,它们成为大数据采集、存储、处理和呈现的有力武器。大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。1.大数据采集技术数据采集是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据,是大数据知识服务模型的转载 2020-09-11 11:34:43 · 9365 阅读 · 0 评论 -
十二个经典的大数据项目
介绍一下,应用较多的大数据项目:1,离线数据处理:项目内容为通过对网站访问日志的采集和清洗,结合数据库中的结构化用户数据,统计并展示网站的PV、UV情况,以对网站的运行情况进行监控。通过此项目,回顾并串联前面讲述的离线数据处理相关技术,如:FIune、Sqoop、Hive、Spark等,了解和掌握PB级数据离线处理的一般过程和架构。2,流式数据处理:项目内容为通过对数据库交易数据修改的实时同步,监控网站实时交易情况,以提高网站交易情况监控的时效性,降低网站运行的风险。 通过此项目,回顾并串联前面讲述原创 2020-05-26 18:50:35 · 17426 阅读 · 3 评论 -
简说kafka精确一致性
flink或者saaprkstreaming消费kafka的数据如何保持有且仅有一次:消费过得信息,处理完成以后,会记录offset。来保证下次消费从新提交的offset开始。有没有意外:有 offset的默认过期时间是一天【注意:kakfa的消息默认过期时间是一周】,当系统崩溃,一天没有重新启动,会出现offset已经过期,系统重新消费。解决办法:offset持久...原创 2020-04-30 11:26:21 · 423 阅读 · 0 评论 -
分布式理论
分布式理论https://juejin.im/post/5da6b68b51882565f76606fb转载 2020-03-02 13:42:29 · 77 阅读 · 0 评论 -
spark中常用的32个算子
spark中常用的32个算子参考博客供需学习使用:https://blog.csdn.net/fortuna_i/article/details/81170565下篇:flink中常用的算子转载 2019-11-13 12:52:06 · 187 阅读 · 0 评论 -
hive
大数据之Hive学习hive是数据仓库,区别于hbase数据库,hive是一种查询语句,本身不具有存储功能。hive 对结构化数据的操作,区别于非结构化和半结构化数据1.类sql语句,所以就有 增删改查2.hive的原理解释器,编译器,优化器3.优化【本质就是对mapreduce的优化】4.扩展 hive on spark ,tez引擎...原创 2019-10-22 20:21:07 · 105 阅读 · 0 评论 -
大数据处理方法总结
十个大数据量处理方法大总结每一个算法思路都是解决一类问题的总结1.Bloom filter2.Hashing3.bit-map4.堆5.双层桶划分6.数据库索引7.倒排索引(Inverted index)8.外排序9.trie树10.分布式处理 mapreduce ok,看了上面这么多的面试题,是否有点头晕。是的,需要一个总结。接下来,本文将...原创 2019-10-21 19:05:08 · 345 阅读 · 0 评论 -
大数据处理思路之hash
参考这篇blog,仅供自己学习,如有版权问题,我即使删除https://blog.csdn.net/michaelgo/article/details/81949372转载 2019-10-21 18:58:14 · 202 阅读 · 0 评论 -
大数据场景之Bloom Filter详解
大数据场景之Bloom Filter详解注意:Bloom Filter 主要应用 查重方面 其他方面待研究首先看一个问题,针对这样的问题可以看到常规的解决方案详细讲解Bloom Filter,并对需要的参数,譬如选择需要的存储的位数的选择,需要的hash函数的个数等,请看这篇博客:https://blog.csdn.net/samjustin1/article...原创 2019-10-21 16:47:36 · 143 阅读 · 0 评论 -
zookeeper
参考:https://www.cnblogs.com/felixzh/p/5869212.html转载 2019-08-22 20:11:07 · 63 阅读 · 0 评论 -
hadoop的生态圈简介
hadoop的生态圈简介在学习大数据的时候,hadoop是我们过不去的坎,即使在学习spark,也必须要了解hadoop。hadoop生态圈简介:https://www.jianshu.com/p/045adc93aeb7...原创 2019-08-22 16:12:57 · 144 阅读 · 0 评论 -
PV,UV
什么是PV,什么是UV内容参见百度知道:https://zhidao.baidu.com/question/570844898.htmlip、uv和pv的定义IP(独立IP): 即Internet Protocol,指独立IP数。00:00-24:00内相同IP地址之被计算一次。PV(访问量): 即Page View, 即页面浏览量或点击量,用户每次刷新即被计算一次。UV(独立访客)...原创 2019-08-22 15:32:14 · 884 阅读 · 0 评论 -
hadoop之调度器yarn原理详细分析
1.client向yarn提交job,首先找ResourceManager分配资源,2.ResourceManager开启一个Container,在Container中运行一个Application manager3.Application manager找一台nodemanager启动Application master,计算任务所需的计算4.Application master向A...原创 2019-04-17 21:08:39 · 149 阅读 · 0 评论 -
大数据之配置(hadoop的环境配置)
大数据之配置(hadoop的环境配置一) hadoop的配置:java环境配置,hadoop集群配置,ssh免密配置 1.ssh免密配置什么是ssh?简单说,SSH是一种网络协议,用于计算机之间的加密登录。如果一个用户从本地计算机,使用SSH协议登录另一台远程计算机,我们就可以认为,这种登录是安全的,即使被中途截获,密码也不会泄露。最早的时候,互联网通信都是明文通信,一旦被...原创 2019-03-04 11:57:23 · 771 阅读 · 0 评论 -
大数据配置(hadoop的三种集群方式)
大数据配置(hadoop的三种集群方式)Hadoop的运行模式分为3种:本地运行模式,伪分布运行模式,集群运行模式,前2种都是在同一台机器上进行的操作,相应概念如下:(楼主 建立了一个集群 主机 node3 从机分别是node1 node2)1、独立模式即本地运行模式(standalone或local mode)无...原创 2019-03-06 19:36:25 · 4157 阅读 · 1 评论 -
大数据之配置环境(主从机配置)
大数据之配置环境创建主从机的步骤(包括你配置主机的ip,子网掩码,dns等,以及从机的主机名和ip,建立通信)1.主机(master)的配置主机的配置内容(ip,dns,gateway,mask)查看该目录下的文件,主要查看网卡的类型(有的人的网卡不是eth0,而是ens33,这先留一个疑问,在文章的最后会附录怎样解决这个问题,也不一定是ens...原创 2019-03-01 22:11:28 · 1083 阅读 · 0 评论