大数据导论与Linux基础

什么是数据

数据:指对官方事件进行记录并可以鉴别的符号
数据如何产生:对客观事物的计量和记录产生数据

数据分析方向

数据分析在企业日常分析中三大方向:

  • 现状分析(当下数据):现阶段的整体情况,各个部分的构成占比、发展、变动

  • 原因分析(过去数据):某一现状为什么发生,发生原因,调整优化

  • 预测分析(结合数据预测未来):结合已有数据预测未来发展趋势

  • 离线分析:面向过去,面向历史,分析已有的数据。在时间维度明显成批次性变化。一周一分析(T+7)一天一分析(T+1),也叫批处理

  • 实时分析:所谓的实时是指数据产生到数据分析到数据应用的时间间隔很短,可细分秒级别

  • 机器学习:基于历史数据和当下产生的实时数据预测未来发生的事情(分类

  • 聚类、关联、预测等)

数据分析步骤

  1. 明确分析目的和思路,统计分析方法
  2. 数据收集(业务数据、日志数据、爬虫数据,互联网公开数据)
  3. 数据处理:数据清洗、数据转化、数据提取、
  4. 数据分析
  5. 数据展示
  6. 报告撰写

大数据5V特征:数据体量大、种类多、低价值密度、速度块、数据质量

分布式与集群

分布式:多台机器:每台机器上部署不同组件
集群:多台机器,每台机器上部署相同组件

如何存储?
单机存储瓶颈,多台机器分布式存储

如何计算?
单机计算瓶颈,多台机器分布式计算

操作系统

操作系统OS,是管理计算机硬件与软件资源的程序
没有操作系统的机器称之为裸机
操作系统也提供一个让用户与系统交互的操作界面

虚拟机

“云”:硬件资源的虚拟化
NMware虚拟组件包括:网卡、交换机、DHCP、NAT设备等

快照:拍好照后,可以在适合时间恢复到快照状态
可以任何快照之间进行跳转,但三个节点组成的集群要一起进行快照跳转

ssh协议

SSH 是Secure Shell 的缩写,是一种网络安全协议,专为远程登录会话和其他网络服务提供安全性的协议

Linux中,SSH主要是用户加密实现远程登录,服务器之间的免密登录
SSH中采用非对称加密,两个密钥:公开密钥,和私有密钥
公钥与私钥是一对,如果用公钥对数据进行加密,只有用对应的私钥才能解密
在这里插入图片描述
支持SSH协议的软件:FinalShell、Putty、xshell等
下载安装FinalShell:
在这里插入图片描述

Linux常用操作

tab键自动补全
ls 显示目录文件
ls -a 显示所有文件
ls -l 显示详细信息
cd 切换目录
cd …/ 切换上级目录
mkdir 创建目录
mkdir -p aa/bb
touch 创建空文件
rm 删除文件或者目录
rm -f 1.txt 强制删除
history显示历史记录
cp 复制、移动文件
cat 小文件的查看
more、tail
管道命令|
命令1 | 命令2 :将命令1的结果当时命令2的输入,再执行
tar 打包解包
data 显示日期和时间
free 显示内存情况

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值