1、需求概述
用户需求->系统需求
2、需求分析
系统需求->官方要求系统需求说明书
企业需要的系统原型
3、技术方案和开发计划
技术方案的IO:系统原型->技术方案说明书
开发计划:输入较多较全面,输出是排期表
4、微博的删除
从用户端看是真的被删除了
但是从数据库角度看,都是逻辑删除
CSV格式数据,以逗号分隔
more 文件名 空格翻页 回车读行
wc -l 文件名 看有多少行
ls | wc -l 看有多少个文件
du -sh * | sort 排序
sort -k数字 指定字段排序
du -sh -BM * | sort -k1n
du:查看目录的真实大学
-s:summaries,只显示汇总的大小
-h:表示以高可读性的形式进行显示
-BM:以文件大小(以M为单位)
unzip需要参数
管道传的是字符串
5、Shell如何拿到一个文本串的执行结果
用``即可,即将该符号内的所有文本当中shell代码来执行
shell当中如何遍历集合
for do done
实现字符串截取
cut
awk
sed
${}
脚本
#! /bin/bash
#定义相关变量参数
db_name=tangshuo
csv_root_dir_local=../data/csv_data_dir/
csv_root_dir_hdfs=/user/tangshuo/webaodata/
table_name=weibo_origin
#将一个csv目录当中所有csv文件批量加载到hive的指定表的分区中
csv_file_list=`ls $csv_root_dir_local""*.csv`
for file_path in $csv_file_list;do
hdfs dfs -put -f $file_path $csv_root_dir_hdfs
day_seq=`echo $file_path | awk -F '/' '{print $NF}' | cut -d '.' -f1`
hive -e "
use $db_name;
load data inpath '$csv_root_dir_hdfs$day_seq.csv' overwrite into table $table_name partition(day_seq='$day_seq');
"
done