大数据
文章平均质量分 91
Richard Chijq
当你的才华撑不起你的野心的时候,就应该静下心来学习
展开
-
《AI大模型开发笔记》——数据挖掘领域十大经典算法
数据挖掘是人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,作出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,作出正确的决策。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。< span=“”>原创 2023-01-25 11:14:55 · 8715 阅读 · 0 评论 -
《AI大模型开发笔记》——Python数据挖掘基础
画二维图表的python库,实现数据可视化 , 帮助理解数据,方便选择更合适的分析方法。1.5多个坐标系显示-plt.subplots(面向对象的画图方法)2.1、ndarray与Python原生list运算效率对比。Numpy是一个高效的运算工具,核心就是ndarray运算。案例:随机生成8只股票2周的交易日涨幅数据。1.3 完善原始折线图1(辅助显示层)合并、分割、IO操作、数据处理。完善原始折线图2(图像层)3.4、股票涨跌幅统计运算。3.6、数组与数组的运算。对比每部电影的票房收入。原创 2023-02-19 20:38:27 · 583 阅读 · 0 评论 -
docker搭建hadoop和hive集群
Dockfile文件的内容解释:基于centos镜像,生成带有spenssh-server、openssh-clients的镜像,用户为root,密码为a123456,镜像维护者(作者)为hadoop。因为集群的服务器之间需要通信,而且每次虚拟机给集群分配的ip地址都不一样,所以需要创建网桥,给每台服务器分配固定的ip映射,这样就可以通过使用服务器名进行通信了,而且ip地址也不会变动。MAINTAINER+空格+作者的信息,用于指定镜像作者的信息,我的用户名是hadoop,改成你自己的。原创 2023-02-02 16:42:40 · 4091 阅读 · 0 评论 -
mongodb分片
db.runCommand({"shardcollection":"test.refactor","key":{"name":1}})//对test数据库的refactor集合进行分片,片键是name。不论片键随机跳跃还是稳定增加,片键的变化很重要.如,如果有个"logLevel"键的值只有3种值"DEBUG","WARN","ERROR",这个值与"_id"相对应,表名这个数据的"大本营"在哪里.不论分片与否,数据库总会有个大本营.要是分片的话,创建数据库时会。原创 2023-01-30 14:49:47 · 787 阅读 · 0 评论 -
大数据相关组件
是NameNode的冷备份,分担NameNode的工作量,合并fsimage和fsedits然后再发给NameNode,定期同步元数据映像文件和修改日志,当NameNode发生故障时,备份转正。Hive是构建在Hadoop HDFS上的一个数据仓库,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能,其本质是将SQL转换为MapReduce程序。:是Master节点,管理数据块映射,处理客户端的读写请求,配置副本策略,管理HDFS的名称空间; 1、spark rdd:弹性分布式数据集。原创 2023-01-27 17:54:54 · 779 阅读 · 0 评论
分享