大数据
didiaoqianjinshen007
这个作者很懒,什么都没留下…
展开
-
Elasticsaerch启动报错:Exception in thread “main“ java.nio.file.AccessDeniedException:
"at org.elasticsearch.bootstrap.Elasticsearch.main(Elasticsearch.java:115) ~[elasticsearch-7.3.0.jar:7.3.0]",,"at org.elasticsearch.bootstrap.Elasticsearch.main(Elasticsearch.java:92) ~[elasticsearch-7.3.0.jar:7.3.0]",,"Caused by: org.elasticsearch.Elas.原创 2021-04-21 14:27:49 · 316 阅读 · 0 评论 -
Hadoop面试
1:Hadoop VS Spark 2.Hadoop实时应用有哪些?Hadoop,众所周知的Apache Hadoop,是一个开放源代码软件平台,用于大容量数据的可扩展和分布式计算。它提供对数字平台和企业内部生成的结构化和非结构化数据的快速,高性能和成本效益的分析。它如今几乎应用在所有部门 。比如:•交通管理•流处理•内容管理和电子邮件存档•使用Hadoop计算集群原创 2017-01-22 17:49:24 · 575 阅读 · 0 评论 -
[精华]Hadoop,HBase分布式集群和solr环境搭建
1. 机器准备(这里做测试用,目的准备5台CentOS的linux系统)1.1 准备了2台机器,安装win7系统(64位) 两台windows物理主机: 192.168.131.44 administrator/(密码是一个空格) 192.168.131.67 administrator/(密码是一个空格) 1.2. 每台机器上安装VMwareWorkstation8.0.原创 2017-01-22 15:58:09 · 1209 阅读 · 1 评论 -
Zookeeper + HBase 安装(详细图文)
说明:在之前我们都已经将hadoop集群(三个节点)构建好了,接下来我们来安装一下zookeeper-3.4.8 + hbase-1.2.3。相信在有了之前那么多次经验,这次的安装肯定也不会难到大家。* ZooKeeper 安装及配置 *– 在主节点上解压zookeeper-3.4.8.tar.gz –同样的,这次我们使用 “rz” 命令将在windows上下载好的安装包上原创 2017-01-22 15:55:03 · 2157 阅读 · 0 评论 -
Memcache,Redis,MongoDB(数据缓存系统)方案对比与分析
一、问题: 数据库表数据量极大(千万条),要求让服务器更加快速地响应用户的需求。 二、解决方案: 1.通过高速服务器Cache缓存数据库数据 2.内存数据库 (这里仅从数据缓存方面考虑,当然,后期可以采用Hadoop+HBase+Hive等分布式存储分析平台) 三、主流解Cache和数据库对比:原创 2017-01-22 09:47:58 · 315 阅读 · 0 评论 -
spark DataFrame 的函数|基本操作|集成查询记录
DataFrame 的函数Action 操作1、 collect() ,返回值是一个数组,返回dataframe集合所有的行2、 collectAsList() 返回值是一个Java类型的数组,返回dataframe集合所有的行3、 count() 返回一个number类型的,返回dataframe集合的行数4、 describe(cols: String*) 返回一个通过数学原创 2016-12-13 17:01:26 · 21382 阅读 · 0 评论 -
Spark环境搭建【图文】
问题导读1.如何现在安装、配置scala?2.如何安装scala 插件?3.创建scala 项目需要哪些步骤?下载scala方法一 1:在百度搜索框中输入”scala 下载”2:进入scala官方网站3:进入下载列表4.进入下载页5.点击下载原创 2016-12-13 16:43:22 · 432 阅读 · 0 评论 -
mycat实现mysql读写分离实践
mycat是一个的数据库中间件,基于阿里开源的cobar产品而研发,由几个有志之士的牛人共同完成并开源。提供高可用性数据分片集群,自动故障切换,高可用性 ,支持读写分离,支持Mysql双主多从,以及一主多从的模式 ,支持全局表,数据自动分片到多个节点,用于高效表关联查询 ,支持独有的基于E-R 关系的分片策略,实现了高效的表关联查询多平台支持,部署和实施简单。今天来实践下用mycat实现m原创 2016-12-06 16:54:44 · 394 阅读 · 0 评论 -
Java一次导出百万条数据生成excel(web操作)
问问题_Java一次导出百万条数据生成excel(web操作)需求:在web页面操作,一次导出百万条数据并生成excel分析:1、异步生成Excel,非实时,完成后使用某种方式通知用户2、生成多个excel文件,并打包成zip文件,因为一个excel容纳不了这么多数据,即使分别放在不同的sheet中也不行,文件太大,打开需要很长时间,用户体验不好3、如果原创 2016-12-03 11:51:18 · 2377 阅读 · 0 评论 -
消息队列设计精要
消息队列已经逐渐成为企业IT系统内部通信的核心手段。它具有低耦合、可靠投递、广播、流量控制、最终一致性等一系列功能,成为异步RPC的主要手段之一。 当今市面上有很多主流的消息中间件,如老牌的ActiveMQ、RabbitMQ,炙手可热的Kafka,阿里巴巴自主开发的Notify、MetaQ、RocketMQ等。 本文不会一一介绍这些消息队列的所有特性,而是探讨一下自主开发设计一个消息队列时,你需原创 2016-11-11 16:11:42 · 488 阅读 · 0 评论 -
map和reduce 个数的设定 (Hive优化)经典
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有原创 2016-11-11 15:10:17 · 354 阅读 · 0 评论