大数据
double_lifly
这个作者很懒,什么都没留下…
展开
-
大数据介绍(一)
这是本人整理的一些关于大数据的知识,总分为三个方面,第一方面主要在于理论和理解,后面的方面在于操作和补充;希望对想学大数据的你有点帮助第一方面:大数据离线分析 一般处理T+1数据 Hadoop 2.X:(common、HDFS、MapReduce、YARN) Hadoop并不是什么数据库,也不是程序库,甚至不是一个独立产品。实际上,Hadoop是一些独立模块的组合,包括一个分布式文件系统H...原创 2018-06-09 00:08:20 · 5754 阅读 · 1 评论 -
Hive设置(五)
导入数据方式:方式一:使用load加载数据加载本地数据LOAD DATA LOCAL INPATH '/opt/datas/sw17-top11-dl-sh.anon.csv'加载hdfs:将文件移动(mv)到了表对应的目录下面LOAD DATA INPATH '/opt/datas/sw17-top11-dl-sh.anon.csv' 方式二:使用PUT直接使用...原创 2018-08-21 10:50:24 · 324 阅读 · 0 评论 -
Hive案例(四)
案例:python和R语言,谁更适合用于大数据Spark/hadoop和深度学习?问题一:大数据spark/hadoop,python和R语言,那个用的人多准备数据:截图如下,具体资源在本人的上传资源上,大家可以下载下面来实现上述的问题#创建数据库 CREATE DATABASE db_language #创建表 CREATE TABLE db_...原创 2018-08-21 10:30:34 · 327 阅读 · 0 评论 -
Hive介绍(三)
hive和mysql的区别Database:数据库,命名空间将同一类的表放到此空间下,方便进行管理操作Table:表,字段:数据类型和字段名称映射表和对应的数据文件对应的数据文件就是存储在HDFS上的hive目录文件介绍bin:hive的一些基本命令conf:hive的配置文件examples:hive的一些案例lib:hive的一些依赖包交互式命令...原创 2018-08-21 10:09:51 · 376 阅读 · 0 评论 -
Hive安装(二)
Linux安装hive上传,解压,重命名上传你可以通过rz命令来进行上传解压可以: tar -zxvf 解压的压缩包名 -C 要解压哪个文件目录下的路径设置配置文件/opt/modules/hive-1.2.1-bin/conf文件创建数据仓库:Hive数据需要保持到HDFS 上,https://cwiki.apache.org/confluence/dis...原创 2018-08-21 09:38:23 · 205 阅读 · 0 评论 -
Hive介绍(一)
1.1 介绍The Apache Hive data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data already in sto...原创 2018-08-21 09:24:46 · 413 阅读 · 0 评论 -
Hive自定义函数(UDF)
UDF:User-Defined Function自定义函数看下官方文档:官方文档上说:UDF是一个自定义函数,和hive一起使用,一个新的UDF类需要继承UDF这个父类org.apache.hadoop.hive.ql.udf.generic.GenericUDFGenericUDF提供了更多的灵活性和更复杂的成本。扩展该UDF类的要求是:实现一个或多个evaluate...原创 2018-08-23 21:48:25 · 1084 阅读 · 0 评论 -
Hive(六)案例sql语句练习
掌握了以下sql语句,以后的项目执行sql语句,对于你来说完全们难度。本案例是##################雇员表和部门表##########################相当于是对sql语句的练习,难度不小,希望小伙伴们做好心理准备准备数据:需要的数据被我上传在博客上,大家可以去下载地址是: https://download.csdn.net/my将下载好的...原创 2018-08-22 14:14:00 · 2685 阅读 · 0 评论 -
伪分布式hadoop安装(linux)
文档介绍:hadoop文件配置http://hadoop.apache.org/docs/r2.7.6/hadoop-project-dist/hadoop-common/SingleCluster.html下载hadoop压缩包------》hadoop.apache.org将下载好的hadoop压缩包山传到linux上,可以上传到linux远程的图形化界面解压hadoop压缩包...原创 2018-08-08 16:54:40 · 828 阅读 · 0 评论 -
伪分布式系统Hadoop基础架构
What Is Apache Hadoop?hadoop是一个框架,它允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理。它被设计成从单台服务器扩展到数千台机器,每台机器都提供本地计算和存储。库本身设计用于检测和处理应用层上的故障,而不是依赖于硬件来提供高可用性的服务,因此在一组计算机上交付高可用性的服务,每一个计算机都可能出现故障。Hadoop是一个大家族,是一个开源的生态系统...原创 2018-08-08 16:01:11 · 418 阅读 · 0 评论 -
Redis介绍和linux安装Redis
Redis介绍Redis是一个开源,高级的键值存储和一个适用的解决方案,用于构建高性能,可扩展的Web应用程序。Redis有三个主要特点,使它优越于其它键值数据存储系统 -Redis将其数据库完全保存在内存中,仅使用磁盘进行持久化。 与其它键值数据存储相比,Redis有一组相对丰富的数据类型。 Redis可以将数据复制到任意数量的从机中。Redis安装redis是基于c语言发...原创 2018-08-12 22:04:09 · 249 阅读 · 0 评论 -
MapReduce程序统计UV数量
UV(Unique Visitor)独立访客,统计1天内访问某站点的用户数(以cookie为依据);访问网站的一台电脑客户端为一个访客。可以理解成访问某网站的电脑的数量。网站判断来访电脑的身份是通过来访电脑的cookies实现的。如果更换了IP后但不清除cookies,再访问相同网站,该网站的统计中UV数是不变的。如果用户不保存cookies访问、清除了cookies或者更换设备访问,计数会加1。...原创 2018-08-12 21:08:31 · 865 阅读 · 0 评论 -
MapReduce程序统计PV数量
PV(page view)即页面浏览量,通常是衡量一个网络新闻频道或网站甚至一条网络新闻的主要指标,是评价网站流量最常用的指标之一。监测网站PV的变化趋势和分析其变化原因是很多站长定期要做的工作。 Page Views中的Page一般是指普通的html网页,也包含php、jsp等动态产生的html内容。来自浏览器的一次html内容请求会被看作一个PV,逐渐累计成为PV总数。一书写WebLogP...原创 2018-08-12 21:02:49 · 1108 阅读 · 0 评论 -
大数据之hadoop环境搭建
Hadoop的环境搭建1. 安装虚拟机将事先准备好的虚拟机导入这时虚拟机就启动了。 为了职业化:我们就创建一个普通用户 Useradd username(名字可以随意取) 设置密码:passwd 密码不会显示 用户和密码创建好以后 下面进行虚拟机的配置了修改主机名:通过vi /etc/sysconfig/network你会...原创 2018-06-10 23:55:16 · 484 阅读 · 1 评论 -
Hive介绍
简介: The Apache Hive data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data already in ...原创 2018-08-21 15:38:17 · 294 阅读 · 0 评论