大数据
张俊杰zjj
一个大龄的码农.目前是Java+Python开发,业余时间研究减肥健身养生,后期可能会去做减肥健身博主.
展开
-
Linux重启Hadoop集群命令
命令:sh $HADOOP_HOME/sbin/start-all.sh注意重启hadoop,此时hadoop的相关进程正常启动 , 启动NameNode ,DataNode NodeManager 都会启动启动完了建议自己自行查看一下,是否有的进程需要,如果不需要看看自己手动杀死...原创 2021-01-05 14:35:28 · 8487 阅读 · 0 评论 -
大数据数据流图
原创 2020-10-12 16:14:36 · 854 阅读 · 0 评论 -
大数据技术都用在什么场景[转自 李智慧 的从零开始学大数据 专栏]
转载转自 李智慧 的 从零开始学大数据专栏正文从上面这张图来看大数据技术的分类,我们可以分为存储、计算、资源管理三大类。最基本的存储技术是HDFS。比如在企业应用中,会把通过各种渠道得到的数据,比如关系数据库的数据、日志数据、应用程序埋点采集的数据、爬虫从外部获取的数据,统统存储到HDFS上,供后续的统一使用。HBase作为NoSQL类非关系数据库的代表性产品,从分类上可以划分到存储类别,它的底层存储也用到了HDFS。HBase的主要用途是在某些场景下,代替MySQL之类的关系数据库的数据存储访原创 2020-10-12 15:18:06 · 443 阅读 · 0 评论 -
关于RAID技术 *
参考https://www.zhihu.com/question/20131784和 李智慧的 从零开始学大数据专栏RAID 0首先,我们先假设服务器有N块磁盘,RAID 0是数据在从内存缓冲区写入磁盘时,根据磁盘数量将数据分成N份,这些数据同时并发写入N块磁盘,使得数据整体写入速度是一块磁盘的N倍;读取的时候也一样,因此RAID 0具有极快的数据读写速度。但是RAID 0不做数据备份,N块磁盘中只要有一块损坏,数据完整性就被破坏,其他磁盘的数据也都无法使用了。也就是说如果你有n块磁盘,原来只原创 2020-10-04 16:43:12 · 263 阅读 · 0 评论 -
如果一个文件的大小超过了一张磁盘的大小,你该如何存储?
转载转自 极客时间 从零开始学大数据 李智慧 文章, 我学完了做了个笔记总结了一下如果一个文件的大小超过了一张磁盘的大小,你该如何存储?单机时代,主要的解决方案是RAID;分布式时代,主要解决方案是分布式文件系统无论是在单机时代还是分布式时代,大规模数据存储都需要解决几个核心问题1.数据存储容量的问题。既然大数据要解决的是数以PB计的数据计算问题,而一般的服务器磁盘容量通常1~2TB,那么如何存储这么大规模的数据呢?2.数据读写速度的问题。一般磁盘的连续读写速度为几十MB,以这样的速度,几十PB原创 2020-09-28 12:44:45 · 1512 阅读 · 1 评论 -
大数据概念
大数据指的是无法在一定时间范围内用常规软件进行捕捉,管理和处理的数据集合,是需要新处理模式才能具有更强的决策力,洞察发现力和流程优化能力的海量,高增长率和多样化的信息资产.主要解决的问题是海量数据的存储和海量数据的分析计算能力.假如说有20PB的数据做统计啥的,你用传统的H2数据库是肯定处理不完的.除非招大量的程序员一起去干.不过这样成本太高了. 所以就用新的技术来处理,就是大数据....原创 2020-08-26 20:53:54 · 175 阅读 · 0 评论