什么是数据
数据:指对官方事件进行记录并可以鉴别的符号
数据如何产生:对客观事物的计量和记录产生数据
数据分析方向
数据分析在企业日常分析中三大方向:
-
现状分析(当下数据):现阶段的整体情况,各个部分的构成占比、发展、变动
-
原因分析(过去数据):某一现状为什么发生,发生原因,调整优化
-
预测分析(结合数据预测未来):结合已有数据预测未来发展趋势
-
离线分析:面向过去,面向历史,分析已有的数据。在时间维度明显成批次性变化。一周一分析(T+7)一天一分析(T+1),也叫批处理
-
实时分析:所谓的实时是指数据产生到数据分析到数据应用的时间间隔很短,可细分秒级别
-
机器学习:基于历史数据和当下产生的实时数据预测未来发生的事情(分类
-
聚类、关联、预测等)
数据分析步骤
- 明确分析目的和思路,统计分析方法
- 数据收集(业务数据、日志数据、爬虫数据,互联网公开数据)
- 数据处理:数据清洗、数据转化、数据提取、
- 数据分析
- 数据展示
- 报告撰写
大数据5V特征:数据体量大、种类多、低价值密度、速度块、数据质量
分布式与集群
分布式:多台机器:每台机器上部署不同组件
集群:多台机器,每台机器上部署相同组件
如何存储?
单机存储瓶颈,多台机器分布式存储如何计算?
单机计算瓶颈,多台机器分布式计算
操作系统
操作系统OS,是管理计算机硬件与软件资源的程序
没有操作系统的机器称之为裸机
操作系统也提供一个让用户与系统交互的操作界面
虚拟机
“云”:硬件资源的虚拟化
NMware虚拟组件包括:网卡、交换机、DHCP、NAT设备等
快照:拍好照后,可以在适合时间恢复到快照状态
可以任何快照之间进行跳转,但三个节点组成的集群要一起进行快照跳转
ssh协议
SSH 是Secure Shell 的缩写,是一种网络安全协议,专为远程登录会话和其他网络服务提供安全性的协议
Linux中,SSH主要是用户加密实现远程登录,服务器之间的免密登录
SSH中采用非对称加密,两个密钥:公开密钥,和私有密钥
公钥与私钥是一对,如果用公钥对数据进行加密,只有用对应的私钥才能解密
支持SSH协议的软件:FinalShell、Putty、xshell等
下载安装FinalShell:
Linux常用操作
tab键自动补全
ls 显示目录文件
ls -a 显示所有文件
ls -l 显示详细信息
cd 切换目录
cd …/ 切换上级目录
mkdir 创建目录
mkdir -p aa/bb
touch 创建空文件
rm 删除文件或者目录
rm -f 1.txt 强制删除
history显示历史记录
cp 复制、移动文件
cat 小文件的查看
more、tail
管道命令|
命令1 | 命令2 :将命令1的结果当时命令2的输入,再执行
tar 打包解包
data 显示日期和时间
free 显示内存情况