基于海量微博数据的仓库构建与舆情热点挖掘项目笔记(第三天)
基于海量微博数据的仓库构建与舆情热点挖掘项目第三天数据校验方法说明与实战案例数据出现错位原因及解决办法数据清洗分词UDF编写
数据校验
方法说明与实战案例
抽样检查:查看最复杂的那一列及其后面的字段
// 数据校验方法
select 字段 from 表 limit 条数;
数据出现错位原因及解决办法
原因:数据向左对齐
解决办法:将数据导入法方式与数据表的解析方式保持完全一致
// 数据解析格式
row format serde 'org.apache.hadoop.hive.serde2.OpenCS
原创
2020-07-22 21:32:38 ·
240 阅读 ·
0 评论