![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 72
大数据日常经验
xuxu1116
中国科学院大学 硕博连读 主要研究方向多模态算法 aigc生成技术,也会分享一下工程问题,因为一个合格的算法工程就是要算法和工程两手抓
展开
-
mongodb常用脚本
1,设置副本集#!/bin/bash#mongodb 进入client 并use admincd /usr/mongodb/binMongoDB=’./mongo 192.168.1.7:37017’$MongoDB <<EOFuse adminrsconf={“_id” : “Job001”,“members” : [{“_id” : 0,“host” : “...原创 2019-04-11 14:49:38 · 3237 阅读 · 1 评论 -
spark连接MongoDB的两种方式
一、准备机器操作系统:centos 6机器:10.211.55.7端口:27017二、安装1、下载MongoDB(64位)wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.4.9.tgz2、安装MongoDB(安装到/data/program/software)tar –zxf mongodb-linux-x...原创 2019-03-30 08:50:23 · 2039 阅读 · 1 评论 -
hive生产实践问题(一)在使用Hive Client跑job时,一直提示job被kill,
然后观察YARN的WebUI进行查看,如图:然后观察Hive Client的控制台输出,如下:Launching Job 1 out of 3Number of reduce tasks is set to 0 since there’s no reduce operatorStarting Job = job_1552895066408_0001, Tracking URL = htt...原创 2019-03-31 20:42:05 · 3862 阅读 · 1 评论 -
hive优化总结
1.我们知道大数据场景下不害怕数据量大,害怕的是数据倾斜,怎样避免数据倾斜,找到可能产生数据倾斜的函数尤为关键,数据量较大的情况下,慎用count(distinct),count(distinct)容易产生倾斜问题。2.设置合理的map reduce 的task数量map阶段优化mapred.min.split.size: 指的是数据的最小分割单元大小;min的默认值是1Bmapred.m...原创 2019-04-04 17:24:18 · 4231 阅读 · 1 评论 -
hive内置函数
1 Hive的内置函数在Hive中给我们内置了很多函数官方地址也可以在启动hive后输入命令查看函数:SHOW FUNCTIONS;DESCRIBE FUNCTION <function_name>;DESCRIBE FUNCTION EXTENDED <function_name>;123查看所有的内置函数hive> show functions;1...原创 2019-04-04 17:46:40 · 2046 阅读 · 0 评论 -
hive知识点总结
Hive学习也有一段时间了,今天来对Hive进行一个总结,谈谈自己的理解,作者还是个小白,有不对的地方请大家指出相互学习,共同进步。今天来谈一谈什么是Hive,产生背景,优势等一系列问题。什么是Hive先来谈谈自己的理解:有些人可能会说Hive不就是写SQL的吗,那我们其实可以从另一个角度来理解:Hive就是那么强大啊,只要写SQL就能解决问题,其实这些人说的也没错Hive确实就是写SQL的...原创 2019-04-04 17:27:09 · 443 阅读 · 1 评论 -
IK分词器结合JAVA使用并附一个实用的例子
IK Analyzer是基于lucene实现的分词开源框架,下载路径:http://code.google.com/p/ik-analyzer/downloads/list需要在项目中引入:IKAnalyzer.cfg.xmlIKAnalyzer2012.jarlucene-core-3.6.0.jarstopword.dic什么都不用改示例代码如下(使用IK Analyzer):...原创 2019-03-29 17:33:46 · 7976 阅读 · 1 评论 -
hadoop常用数据压缩方式
Hadoop支持压缩格式:1)Gzip压缩优点:压缩率比较高,压缩/解压速度也比较快,hadoop本身支持。缺点:不支持分片。应用场景:当每个文件压缩之后在1个block块大小内,可以考虑用gzip压缩格式。2)lzo压缩优点:压缩/解压速度也比较快,合理的压缩率,支持分片,是Hadoop中最流行的压缩格式,支持Hadoop native库。缺点:压缩率比gzip要低一些,Hadoo...原创 2019-03-29 08:26:45 · 894 阅读 · 1 评论 -
ELK大规模日志实时处理系统
ELK架构介绍1、核心组成 ELK是一个应用套件,由Elasticsearch、Logstash和Kibana三部分组件组成,简称ELK;它是一套开源免费、功能强大的日志分析管理系统。ELK可以将我们的系统日志、网站日志、应用系统日志等各种日志进行收集、过滤、清洗,然后进行集中存放并可用于实时检索、分析。 这三款软件都是开源软件,通常是配合使用,而且又先后归于Elastic.c...原创 2019-03-26 18:35:27 · 2352 阅读 · 0 评论 -
ELK+Filebeat+Kafka+ZooKeeper构建大数据日志分析平台
本来从原公司离职以后,应该去约好的公司去面试的。但是家里出了一点急事就回老家了。因此利用在老家的这段时间来整理下之前的公司项目里面用的的知识点和一些经验。原来的项目数据采集部分都是使用flume+kafka等框架。但是最新的潮流是ELK三兄弟来进行数据的采集处理显示。整个配置很长,往下一直看下去,对你还是有帮助的。 使用Filebeat来代替flume,因为Filebe...原创 2019-03-26 18:08:13 · 5040 阅读 · 4 评论