- 博客(4)
- 收藏
- 关注
原创 Linux下安装部署MySQL
r C:\Users\mysql\01_mysql-community-common-5.7.16-1.el7.x86_64.rpm [email protected]:/opt/software 自己看自己Linux下的用户名与IP地址。-r 上传的文件路径 Linux用户名@IP地址:/opt/software。将MySQL安装文件上传到 /opt/software 自己的目录。卸载自带的Mysql-libs(如果之前安装过MySQL,要全都卸载掉)
2023-07-11 20:05:15 54
原创 数据分析快速入门教程
补充:如果缺省值缺失过多且这一列的缺省值不是分析重点则对其进行补充 所用到的函数为 data[“time”].fillan(value,inplace=True) 如果缺失过多的是分析重点,则需要重新采集数据fillan。Matplotlib是python的基本绘图模块,包含大量的工具,可以创建简单的图像,也可以创建复杂的三维图像,在matplotlib中有一个模块 pyplot,数据分析常用这个模块。通过第一章的学习,掌握了数据分析的流程,已经数据分析所用的方法和思路来对数据的分析预测得出结论。
2023-07-11 19:45:10 197
原创 Hadoop组件之一mapreduce原理学习笔记(初学者快速了解原理)
为什么要合并:在复制过来的文件中文件与文件直接可能有相同的数据,合并将相同的数据以k键放入一组以wordcount为例 最终输入到reduce方法中的k,v形式为[k,(1,1,1,1)在mapreduce编程中只能有一个map阶段和一个reduce阶段,或许直接map阶段结束任务。Shufell是mapreduce阶段从map的输出开始到输入reduce阶段的过程。4.海里数据的计算,上千台服务器同时计算,可计算Tb级别的数据。一个完整的mapreduce程=用户业务逻辑代码+默认的组件。
2022-12-14 15:05:56 100 1
原创 Hdoop组件之一HDFS的详细学习笔记(初学者)
不适合存储大量小文件(HDFS的设计目的是为了存储大文件,因为采用的块(blak)的设计方式,每一个小文件都会,占用块信息。lient与datanode节点建立传输通道创建输出流,打包chunk,生成一共packet文件传输一份写如磁盘一份写入内存,然后在穿给下一个datanode,直到执行完成,最后一个节点往前应答成功到第一个节点,最后关闭输出流。如果块太大则处理块的数据会很慢。适合大规模存储数据(采用了分布式存储的思想,以块的形式分别存储在datanode阶段中实现大规模数据的存储)
2022-12-14 00:35:50 116
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人