大数据
文章平均质量分 92
muyang_muzi
请多多指教
展开
-
HIVE入门
Hive概述什么是 Hive? * Hive 是建立在 Hadoop HDFS 上的数据库仓库基础建构 * Hive 可以用来进行数据库提取转化加载(ETL) * Hive 定义了简单的类似 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据 * Hive 允许熟悉 MapReduce 的开发者自定义 mapper 和 reducer 来处理内建的 mapper 和 redu原创 2016-06-05 11:41:20 · 852 阅读 · 0 评论 -
Hadoop 大数据平台架构与实践
初识HadoopHadoop是一个开源的分布式存储+分布式计算平台。Hadoop核心组成部分:HDFS:分布式文件系统,存储海量的数据。MapReduce:并行处理框架,实现任务分解和调度。Hadoop可以用来做什么? 搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务。Hadoop优势:高扩展、低成本(不依赖高端硬件,只需要PC机就可以实现)、成熟的生态圈(开源、有很多衍生的小工具原创 2016-06-05 10:26:28 · 1043 阅读 · 0 评论 -
用户画像
用户画像:标签化、 用标签描述用户行为用户画像:动态信息数据 用户行为产生的数据:注册、浏览、点击、购买、签收、评价 比较重要的行为:购买商品、浏览商品、放入购物车、关注商品用户画像的用途:分类统计,数据挖掘,营销推荐模型算法 性别模型 用户忠诚度模型 疑似马甲模型:马甲指一个用户注册多个账号 用户购物类型模型 用户身高尺码模型 手机相关标签:对手机相关标签参考意义比较大;手机品牌、原创 2016-06-06 23:05:07 · 1342 阅读 · 0 评论 -
Hadoop大数据应用生态圈中最主要的组件及其关系
Hadoop CommonHadoop Common是在Hadoop0.2版本之后分离出来的HDFS和MapReduce独立子项目的内容,是Hadoop的核心部分,能为其他模块提供一些常用工具集,如序列化机制、Hadoop抽象文件系统FileSystem、系统配置工具Configuration,并且在为其平台上的软件开发提供KPI等。其他Hadoop子项目都是以此为基础而建立来的。...原创 2018-03-31 19:11:22 · 9406 阅读 · 0 评论 -
Windows 7 64位系统上搭建Hadoop伪分布式环境(很详细)
题目hadoop jar /D:\Application\hadoop-2.7.4\share\hadoop\mapreduce\hadoop-mapreduce-examples-2.7.4.jar wordcount \t1 \output原创 2018-08-22 20:26:21 · 4823 阅读 · 5 评论