hadoop处理文本数据txt,doc,word,excel
http_referer可统计该网页点击来源
第一需求场景的关键点:
1. 用笔记录下“华府”小区所有人的名字
2. 算法:从第一个名字开始,遇到“小强”就加一,直到最后一个名字为止
第二需求场景的关键点:
1. 复用场景一的步骤
2. 算法:DP,大问题化小问题,小问题解决后得到原问题的解
注意注意
注意:在hdfs文件系统的使用者角度看,所有的hdfs机器都是透明的。
该数十台集群服务器提供统一的hdfs
Map可以访问其他机器上的hdfs数据,但是访问本机更快
Hdfs://***.***.***.***:9000是客户机访问hdfs服务的入口
Flume将 Nginx的log日志导入hdfs中
Sqoop将规整好的数据导入数据库