大数据处理大量数据-CSDN博客

本文链接：https://blog.csdn.net/syc0616/article/details/116391935

Hive修改

ALTER TABLE name RENAME TO new_name
ALTER TABLE name ADD COLUMNS (col_spec[, col_spec ...])
ALTER TABLE name DROP [COLUMN] column_name
ALTER TABLE name CHANGE column_name new_name new_type
ALTER TABLE name REPLACE COLUMNS (col_spec[, col_spec ...])

1.Rename To… 语句

对于内部表，除了更新表的元数据之外，还对表的目录名称进行修改。
对于外部表，这个操作只更新元数据，但不会更改存放数据的目录名称。

ALTER TABLE oldTableName RENAME TO newTableName;

2.Change 语句

下表包含employee表的字段，它显示的字段要被更改。

ALTER TABLE employee CHANGE name ename String; //修改name为ename
ALTER TABLE employee CHANGE salary salary Double; //修改salary的类型为Double

3.添加列语句

下面的查询增加了一个列名dept在employee表。

ALTER TABLE employee ADD COLUMNS (dept STRING COMMENT 'Department name');

4.REPLACE语句

这个操作其实是将原有的列删除，然后再添加新的指定的列。

ALTER TABLE employee REPLACE COLUMNS ( eid INT empid Int, ename STRING name String)

备注：加分区表字段需要加上CASCADE

ALTER TABLE table_name add columns( dept string COMMENT '') CASCADE；

5.创建一个Schema一样的新表-- Like

CREATE TABLE new_table LIKE existing_table;

6.hive表修改TBLPROPERTIES：

修改TBLPROPERTIES内的数据命令：

alter table table_name set TBLPROPERTIES ('EXTERNAL'='TRUE'); -- 内部表转外部表

alter table table_name set TBLPROPERTIES ('EXTERNAL'='FALSE'); -- 外部表转内部表

7.Hive 修改表注释：

ALTER TABLE xxx SET TBLPROPERTIES('comment' = 'XXX');

所谓海量数据处理，无非就是基于海量数据上的存储、处理、操作。何谓海量，就是数据量太大，所以导致要么是无法在较短时间内迅速解决，要么是数据太大，导致无法一次性装入内存。

那解决办法呢?针对时间，我们可以采用巧妙的算法搭配合适的数据结构，如Bloom filter/Hash/bit-map/堆/数据库或倒排索引/trie树，针对空间，无非就一个办法：大而化小，分而治之（hash映射），你不是说规模太大嘛，那简单啊，就把规模大化为规模小的，各个击破不就完了嘛。

至于所谓的单机及集群问题，通俗点来讲，单机就是处理装载数据的机器有限(只要考虑cpu，内存，硬盘的数据交互)，而集群，机器有多辆，适合分布式处理，并行计算(更多考虑节点和节点间的数据交互)。

处理海量数据问题，无非就是：

分而治之/hash映射 + hash统计 + 堆/快速/归并排序；
双层桶划分
Bloom filter/Bitmap；
Trie树/数据库/倒排索引；
外排序；
分布式处理之Hadoop/Mapreduce。

密匙一、分而治之/Hash映射 + Hash_map统计 + 堆/快速/归并排序

1、海量日志数据，提取出某日访问百度次数最多的那个IP。

无非就是分而治之：hash映射 + hash统计 + 堆/快速/归并排序，说白了，就是先映射，而后统计，最后排序；

分而治之/hash映射：针对数据太大，内存受限，只能是：把大文件化成(取模映射)小文件，即16字方针：大而化小，各个击破，缩小规模，逐个解决

hash_map统计：当大文件转化了小文件，那么我们便可以采用常规的hash_map(ip，value)来进行频率统计。

堆/快速排序：统计完了之后，便进行排序(可采取堆排序)，得到次数最多的IP。

具体而论，则是： “首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如%1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP（可以采用hash_map对那1000个文件中的所有IP进行频率统计，然后依次找出各个文件中频率最大的那个IP）及相应的频率。然后再在这1000个最大的IP中，找出那个频率最大的IP，即为所求。

STL容器分两种：

1.序列式容器(vector/list/deque/stack/queue/heap)，
2.关联式容器；关联式容器又分为set(集合)和map(映射表)两大类，以及这两大类的衍生体multiset(多键集合)和multimap(多键映射表)，这些容器均以RB-tree完成。此外，还有第3类关联式容器，如hashtable(散列表)，以及以hashtable为底层机制完成的hash_set(散列集合)/hash_map(散列映射表)/hash_multiset(散列多键集合)/hash_multimap(散列多键映射表)。也就是说，set/map/multiset/multimap都内含一个RB-tree，而hash_set/hash_map/hash_multiset/hash_multimap都内含一个hashtable。
所谓关联式容器，类似关联式数据库，每笔数据或每个元素都有一个键值(key)和一个实值(value)，即所谓的Key-Value(键-值对)。当元素被插入到关联式容器中时，容器内部结构(RB-tree/hashtable)便依照其键值大小，以某种特定规则将这个元素放置于适当位置。

2、寻找热门查询，300万个查询字符串中统计最热门的10个查询

原题：搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。假设目前有一千万个记录（这些查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就是越热门），请你统计最热门的10个查询串，要求使用的内存不能超过1G。

解答：由上面第1题，我们知道，数据大则划为小的，如如一亿个Ip求Top 10，可先%1000将ip分到1000个小文件中去，并保证一种ip只出现在一个文件中，再对每个小文件中的ip进行hashmap计数统计并按数量排序，最后归并或者最小堆依次处理每个小文件的top10以得到最后的结。

但如果数据规模比较小，能一次性装入内存呢?比如这第2题，虽然有一千万个Query，但是由于重复度比较高，因此事实上只有300万的Query，每个Query255Byte，因此我们可以考虑把他们都放进内存中去ÿ