大数据
文章平均质量分 90
Richard Chijq
当你的才华撑不起你的野心的时候,就应该静下心来学习
展开
-
Python数据挖掘基础
画二维图表的python库,实现数据可视化 , 帮助理解数据,方便选择更合适的分析方法。1.5多个坐标系显示-plt.subplots(面向对象的画图方法)2.1、ndarray与Python原生list运算效率对比。Numpy是一个高效的运算工具,核心就是ndarray运算。案例:随机生成8只股票2周的交易日涨幅数据。1.3 完善原始折线图1(辅助显示层)合并、分割、IO操作、数据处理。完善原始折线图2(图像层)3.4、股票涨跌幅统计运算。3.6、数组与数组的运算。对比每部电影的票房收入。原创 2023-02-19 20:38:27 · 544 阅读 · 0 评论 -
docker搭建hadoop和hive集群
Dockfile文件的内容解释:基于centos镜像,生成带有spenssh-server、openssh-clients的镜像,用户为root,密码为a123456,镜像维护者(作者)为hadoop。因为集群的服务器之间需要通信,而且每次虚拟机给集群分配的ip地址都不一样,所以需要创建网桥,给每台服务器分配固定的ip映射,这样就可以通过使用服务器名进行通信了,而且ip地址也不会变动。MAINTAINER+空格+作者的信息,用于指定镜像作者的信息,我的用户名是hadoop,改成你自己的。原创 2023-02-02 16:42:40 · 3789 阅读 · 0 评论 -
mongodb分片
db.runCommand({"shardcollection":"test.refactor","key":{"name":1}})//对test数据库的refactor集合进行分片,片键是name。不论片键随机跳跃还是稳定增加,片键的变化很重要.如,如果有个"logLevel"键的值只有3种值"DEBUG","WARN","ERROR",这个值与"_id"相对应,表名这个数据的"大本营"在哪里.不论分片与否,数据库总会有个大本营.要是分片的话,创建数据库时会。原创 2023-01-30 14:49:47 · 731 阅读 · 0 评论 -
大数据相关组件
是NameNode的冷备份,分担NameNode的工作量,合并fsimage和fsedits然后再发给NameNode,定期同步元数据映像文件和修改日志,当NameNode发生故障时,备份转正。Hive是构建在Hadoop HDFS上的一个数据仓库,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能,其本质是将SQL转换为MapReduce程序。:是Master节点,管理数据块映射,处理客户端的读写请求,配置副本策略,管理HDFS的名称空间; 1、spark rdd:弹性分布式数据集。原创 2023-01-27 17:54:54 · 690 阅读 · 0 评论