项目概述(基于海量微博数据的仓库构建与舆情热点挖掘项目_v3.0)

1、需求概述

用户需求->系统需求

2、需求分析

系统需求->官方要求系统需求说明书

企业需要的系统原型

3、技术方案和开发计划

技术方案的IO:系统原型->技术方案说明书

开发计划:输入较多较全面,输出是排期表

4、微博的删除

从用户端看是真的被删除了

但是从数据库角度看,都是逻辑删除

CSV格式数据,以逗号分隔

more 文件名 空格翻页 回车读行

wc -l 文件名     看有多少行

ls | wc -l  看有多少个文件

du -sh * | sort 排序

sort -k数字  指定字段排序

du -sh -BM * | sort  -k1n

du:查看目录的真实大学

 -s:summaries,只显示汇总的大小

 -h:表示以高可读性的形式进行显示

-BM:以文件大小(以M为单位)

unzip需要参数

管道传的是字符串

5、Shell如何拿到一个文本串的执行结果

用``即可,即将该符号内的所有文本当中shell代码来执行

shell当中如何遍历集合

for  do  done

实现字符串截取

cut 

awk

sed

${}

脚本

#! /bin/bash
#定义相关变量参数
db_name=tangshuo
csv_root_dir_local=../data/csv_data_dir/
csv_root_dir_hdfs=/user/tangshuo/webaodata/
table_name=weibo_origin

#将一个csv目录当中所有csv文件批量加载到hive的指定表的分区中
csv_file_list=`ls $csv_root_dir_local""*.csv`
for file_path in $csv_file_list;do
hdfs dfs -put -f  $file_path $csv_root_dir_hdfs
day_seq=`echo $file_path | awk -F '/' '{print $NF}' | cut -d '.' -f1`
hive -e "
 use $db_name;
 load data inpath '$csv_root_dir_hdfs$day_seq.csv' overwrite into table $table_name partition(day_seq='$day_seq');
"
done

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值