大数据
simplelife12138
Begin and go on, today!
展开
-
大数据概述
什么是大数据 通过分布式存储技术存储海量数据,然后运用分布式运算框架并分析挖掘出有价值的信息.核心概念:海量数据存储–通过分布式技术,整合众多PC机的存储,从而实现一个大的存储系统.例如:海量的订单信息,天气信息,个人信息……大数据计算–通过分布式技术,整合众多PC机的CPU,实现一个大的运算系统.例如:产品推荐,气象计算,行为统计……相关概念:高可用(HA):备份及高可靠性.数据同步:保原创 2017-12-25 14:15:28 · 600 阅读 · 0 评论 -
大数据第一阶段练习项目说明
1 MR(MapReduce)解析流量日志日志格式: ip地址 - - 当前时间(DD/M/YY:HH:MM:SS +UTC) “GET /访问地址URL 请求协议” 访问状态 流量 解析结果: ip地址\t当前时间(YYYYMMDDHHMMSS,适合中国人的格式)\t网址\t访问状态\t流量特殊说明->解析URL:URL格式:GET /URL 请求协议特殊URL格式:GE原创 2018-01-13 11:09:25 · 486 阅读 · 0 评论 -
Hive分区分桶基本操作
重置HIVE登录mysql[root@m ~]# mysql -uroot -p1->MySQLdrop database hive;create database hive;--修改数据库编码alter database grant all on hive.* to hive@'%' identified by '1';grant all on hive.* t原创 2018-01-15 13:23:32 · 315 阅读 · 0 评论 -
SPARK学习笔记
1. 安装SPARK,不再赘述2. shell操作% spark-shellScala> val lines = sc.textFile("/root/spark_test")--加载文件关于RDD: 弹性分布式数据集(Resilient Distributed Dataset,简称RDD) RDD是SPARK最核心的概念,他是在集群中跨等多个机器分区存储的一个只读的对象集合.在典型的Spar原创 2018-01-24 09:48:04 · 216 阅读 · 0 评论 -
项目-Hive操作
第一个文件mydate.sql,设置文件使用的变量值#!/bin/bash#注意:mycollection.sql放的是存放SQL代码的文件名hive -hiveconf mydate="$(date +%Y%m%d)" -f mycollection.sql第二个文件mycollection.sql,存放SQL代码create table if not exists kp原创 2018-01-14 17:31:45 · 321 阅读 · 0 评论 -
Spark笔记(二):算子,cache,checkpoint
算子算子分类Transformation算子:不触发提交作业,完成作业中间处理过程 Value数据类型的Transformation算子 输入分区与输出分区一对一型 1 map2 flatmap3 mapPartitions4 glom输入分区与输出分区多对一型 5 union6 cartesian输入分区与输出分区多对多型 7 groupBy输出分区为输入分原创 2018-01-24 11:34:01 · 779 阅读 · 0 评论 -
Hadoop伪集群配置,测试
注意:为免测试出现特殊状况,请严格按照样板参数进行配置,了解参数配置原则的可以自行修改 注意:为免测试出现特殊状况,请严格按照样板参数进行配置,了解参数配置原则的可以自行修改 注意:为免测试出现特殊状况,请严格按照样板参数进行配置,了解参数配置原则的可以自行修改环境及软件说明: windows7 64位 xshell5 vmware12 centOS7 jdk1.8.0_152.原创 2018-01-03 16:14:44 · 279 阅读 · 0 评论 -
Hive Partition
重置HIVE登录mysql[root@m ~]# mysql -uroot -p1->MySQLdrop database hive;create database hive;--修改数据库编码alter database grant all on hive.* to hive@'%' identified by '1';grant all on hive.* to hi原创 2018-01-09 16:49:02 · 306 阅读 · 0 评论