大数据处理
文章平均质量分 68
loophome
这个作者很懒,什么都没留下…
展开
-
HIVE,SparkSql和Presto对比
HIVE,SparkSql和Presto对比原创 2022-05-05 14:42:53 · 666 阅读 · 0 评论 -
ELK日志系统开发,Logstash收集nginx日志(二)
一、Nginx日志例子Nginx日志例子nginx日志默认配置:log_format main '$remote_addr - $remote_user [$time_local] "$request" ' '$status $body_bytes_sent "$http_referer" ' '"$http...原创 2016-08-29 16:02:31 · 12819 阅读 · 2 评论 -
ELK日志系统开发(Logstash、Elasticsearch、Kibana安装)(一)
一、安装Logstash!注意,logstash至少要有1G内存才能执行在安装Logstash之前,确保已经安装了Java的运行环境2)在官网(https://www.elastic.co/)下载Logstash,目前最新版本是6.x3)下载完成之后,加压(无须编译),并复制到local目录下,这个是我正式部署的目录:/usr/local/logstash-6.2.44)测试运...原创 2016-08-25 18:55:29 · 11015 阅读 · 0 评论 -
实现:判断某个元素是否在集合中,统计一段时间内的点击UV数(亿级别)
OK,这个是需要统计首页KV图的一段时间内的点击UV数(亿级别),每个KV图拥有一个唯一的ID。UV是unique visitor的简写,是指通过互联网访问、浏览这个网页的自然人。独立IP:是指独立用户/独立访客。指访问某个站点或点击某条新闻的不同IP地址的人数,独立IP只记录第一次进入网站的具有独立IP的访问者,假如一台电脑关机了,30分钟后重启,再次访问这个站那就再计算原创 2017-04-01 10:00:15 · 1270 阅读 · 0 评论 -
大数据:hdfs操作命令手册
这里使用的hadoop版本是3.1.2一些概念使用hdfs和使用linux文件系统是相似的,这里列举出常用的几个命令。在使用hdfs之前,我们必须对namenode进行格式化,这个步骤在部署伪分布式的时候已经执行过了hdfs namenode -format创建用户目录,进入hdfs时,默认目录就是/user/<username>,<username>...原创 2019-05-08 16:08:18 · 310 阅读 · 0 评论 -
大数据:hadoop安装部署手册
本文档介绍如何设置和配置单节点Hadoop安装,以便使用Hadoop MapReduce和Hadoop分布式文件系统(HDFS)快速执行简单操作。版本:3.1.2安装1)安装环境依赖Java™ must be installed. Recommended Java versions are described at HadoopJavaVersions.ssh must be ins...原创 2019-05-07 11:10:49 · 613 阅读 · 0 评论 -
大数据:hive安装部署手册
本文档介绍如何设置和配置单节点hive安装,以便使用hive快速执行简单操作。版本:3.1.1参考链接:https://cwiki.apache.org/confluence/display/Hive/GettingStarted安装前提,必须显安装和部署hadoop,并添加HADOOP_HOME环境变量1)解压hive的bin程序包,配置HIVE_HOME的环境变量,并把$...原创 2019-05-21 18:34:01 · 215 阅读 · 0 评论