![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
「已注销」
这个作者很懒,什么都没留下…
展开
-
hadoop学习笔记
前言: 之前学习hadoop总结的笔记。1. hadoop 伪分布式式安装 1.1 修改ip地址,立即生效(service network restart) 1.2 关闭防火墙 1.2.1 关闭命令 service iptables stop 1.2.2 查看防火墙状态 service iptables status 1.2.3 ...原创 2019-01-11 11:18:15 · 428 阅读 · 0 评论 -
storm从kafka消息队列读取数据进行读写操作
业务场景: storm+kafka 作为经典组合,storm的作用主要是进行流式计算,对于源源不断的均匀数据流流入处理是非常有效的,而现实生活中大部分场景并不是均匀的数据流,而是时而多时而少的数据流入,这种情况下显然用批量处理是不合适的,如果使用storm做实时计算的话可能因为数据拥堵而导致服务器挂掉,应对这种情况,使用kafka作为消息队列是非常合适的选择,kafka可以将不...原创 2019-01-02 17:04:29 · 11372 阅读 · 0 评论 -
spark Standalone集群模式配置
前言:之前总结的>>>>>sprak集群 standalone模式安装配置>>>>>配置三个节点的spark集群,集群模式为standalone模式,其中sp1节点作为主节点,sp2节点和sp3节点为从节点。***注意所有操作均为root用户1. 创建3个CentOS虚拟机,如下: sp1 192.168.1.2...原创 2019-01-14 11:42:05 · 6404 阅读 · 0 评论 -
ExcelPoi 写入HDFS
场景: 从本地Excel文件导入HDFS进行计算/** * @author DHing */public class ExportPoiToHDFS { public static void exportPoiToHDFS(String server, String dbname, String username, String passwd,String build) { C...原创 2019-01-08 19:05:51 · 1325 阅读 · 0 评论 -
Spark框架简述
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)...转载 2019-01-23 14:33:02 · 694 阅读 · 1 评论 -
Apache Spark机器学习
推荐电子书:Apache Spark 2.x入门 - 从入门到制作前言: 使用Apache Spark 2.0及更高版本,实现了很大的改进,使Spark更容易编程和执行更快:Spark SQL和Dataset / DataFrame API通过Spark SQL优化的执行引擎提供易用性,空间效率和性能提升。 Spark ML提供了一套统一的高级API,构建于DataFrame之...原创 2019-03-11 18:51:46 · 7108 阅读 · 0 评论 -
Kafka 使用ExecutorService 进行消费
前言: Apache Kafka 作为当下最常用消息中间件之一。给到我的需求是需要我们处理大量的消息(如果单线程处理过多消息会出现性能瓶颈)。如何使用Java的ExecutorService框架来创建线程池处理大量消息? 1.创建一个可以从topic中poll()消息后传递到线程池以进行进一步处理。 2.创建工作线程,以执行每条消息的进一步处理。...原创 2019-03-20 17:38:22 · 2898 阅读 · 0 评论