管理系统的开发(天津)java web ,mysql
高并发解决方案(北京):java,go,python,redis,mogo,mq(消息队列)
大数据
运维:1000台机器的大数据集群,如监控,管理
开发:hadoop(hfd,yarn,mapduce),hiv额,spark,storm,flume,kudu(链式存储,数据收集,分析),elasticSearch,hbase,ozzie
算法:机器学习(线性,分类,聚类–数据)
普通算法:不限定语言:python,spark,mlib
去什么城市,选什么类型的公司(北京干一年,当天津干三年)
Hadoop:
业务发展的到规模,有大量数据累积(业务数据,用户访问log日志)
问题:客户访问量大,下单量小
用户行为分析:python,使用小量的数据,进行单机模拟和模型分析
计算海量 数据的条件
数据如何存储—海量的埋点数据(用户行为数据,数据库存储解决不了),服务器日志,业务
数据如何计算:
- 批量计算(mapreduce),实时计算
15年:namedata,dataname
19年:namenode源码,自己实现hadoop,hadoop的3/4的框架
hadoop费钱:
20,50人的小型公司
3年以上30k,5年40k,3个人,一堆服务器10台
100人以上的中型公司可具备该条件
产出:几个T数据
半夜起来看数据,随时上线
文件有指纹:文件通过hash‘
正常上传300mb文件,需要3分钟,但如果穿过,再创,只需要3秒—实现秒传,实现5g的效果
网盘
业务系统 存储系统
文件加/文件1 文件2
hdfs相当于http,它是文件解析协议
一台机器叫为分布式
多台机器构成分布式
linux/window/hdfs都是文件系统
上传,删除,获取,移动文件
hdfs是分布式文件存储系统
secondnary是master的后补。
元数据是存放再内存,在持久化本地
hdfs是基于linux,是通过进程来模拟一个文件系统
今天解压ZendStudio-10.0.0-x86.tar.gz,使用命令
tar -zxvf ZendStudio-10.0.0-x86.tar.gz ./
然后报下面错误
tar: /tm: 归档中找不到
tar: 由于前次错误,将以上次的错误状态退出
然后,搜索还以为文件不对,或者是解压命令不对呢。
最后使用下面命令解决
tar -zxvf ZendStudio-10.0.0-x86.tar.gz -C 当前目录的绝对目录
tar -zxvf ZendStudio-10.0.0-x86.tar.gz -C /home/bailin/