BigData
文章平均质量分 54
29DCH
In me the tiger sniffs the rose.
展开
-
Spark简介、环境安装部署及词频统计实例
Spark是一个高性能的分布式计算框架,由于是在内存中进行操作,性能比MapReduce要高出很多.具体的我就不介绍了,直接开始安装部署并进行实例测试首先在官网下载http://spark.apache.org/downloads.html注意要根据你的hadoop版本选择,2.7极以后可以选这个如果选Source Code的话后面启动spark-shell会报这样的错下好解压缩,...原创 2018-10-12 13:05:09 · 431 阅读 · 0 评论 -
模拟Storm词频统计程序
package storm;import java.util.HashMap;import java.util.Map;import java.util.Random;import java.util.concurrent.ArrayBlockingQueue;import java.util.concurrent.BlockingQueue;import java.util.con...原创 2019-02-20 15:39:37 · 432 阅读 · 0 评论 -
Spark+Ansj中文分词Scala程序
Spark下四种中文分词工具使用hanLPansjjiebafudannlp推荐使用ansj,速度快而且效果好另外jieba,hanLP效果也不错。具体参考ansj:https://github.com/NLPchina/ansj_segHanLP:https://github.com/hankcs/HanLP我的代码如下,加了scala连接mysql数据库查找、插入操作,添加...原创 2019-02-24 22:01:34 · 1056 阅读 · 0 评论 -
zookeeper分布式集群的搭建
首先我的环境是一台deepin加两台ubuntu server版的虚拟机的集群。首先要关闭防火墙。然后再看zookeeper文件目录下conf目录下的文件是否有zoo.cfg和zoo_sample.cfg(原本解压后只有zoo_sample.cfg,但是需要将其改名为zoo.cfg),不能两个文件同时存在。在zoo.cfg文件中加入如下配置dataDir=/root/zkdatadata...原创 2019-01-21 19:54:51 · 363 阅读 · 0 评论 -
Spark Streaming消费Kafka的数据进行统计
流处理平台:这里是第四步的实现:Spark Streaming整合Kafka采用的是Receiver-based,另一种方式Direct Approach,稍作修改就行。package sparkimport org.apache.spark.SparkConfimport org.apache.spark.streaming.kafka.KafkaUtilsimport org....原创 2018-12-06 13:05:16 · 1235 阅读 · 0 评论 -
使用Spark Streaming完成黑名单过滤
TransformApp.scalapackage sparkimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * 黑名单过滤 */object TransformApp { def main(args: Array[Str...原创 2018-11-28 20:53:41 · 337 阅读 · 0 评论 -
使用Spark Streaming完成有状态统计
StatefulWordCount.scalapackage sparkimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * 使用Spark Streaming完成有状态统计 */object StatefulWordCount {...原创 2018-11-28 20:36:28 · 265 阅读 · 0 评论 -
Spark Streaming进阶与案例实战
1.updateStateByKey算子的使用import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * 使用Spark Streaming完成有状态统计 */object StatefulWordCount { def main(ar...原创 2018-12-01 15:15:07 · 248 阅读 · 0 评论 -
Spark Streaming整合Kafka的两种方式
Maven项目下的pom.xml文件加入如下依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka-0-8_2.11</artifac原创 2018-11-30 22:12:46 · 271 阅读 · 0 评论 -
Spark Streaming整合Flume的两种方式
构建Maven项目,在pom.xml文件中加入如下依赖:Push方式整合<!-- Spark Streaming 依赖--> <dependency> <groupId>org.apache.spark&lt原创 2018-11-30 20:17:43 · 240 阅读 · 0 评论 -
大数据学习方法及主要内容
目前来说,大数据的学习核心就是hadoop生态圈及相关的技术。主要的技能树-语言篇:Hadoop本身是用java开发的,所以对java的支持性非常好,所以java是必须的语言。数据挖掘:因为Python开发效率较高所以我们使用Python来进行任务,当然,目前很强大的scala也是一种不错的备选。因为Hadoop是运行在Linux系统上的,所以还需要掌握Linux的知识。学习介绍:学...原创 2018-12-04 14:50:49 · 514 阅读 · 0 评论 -
大数据实验室:零基础学习大数据该看哪些书?
小编身边有很多朋友对大数据行业心向往之,却苦于不知道该如何下手。作为一个无基础大数据入门学习者该看哪些书?今天给大家推荐一位知乎网友挖矿老司机的指导贴,作为参考。 就目前公司招聘和其他所了解到的大数据专业的工作内容,偏重方向和技术选型有所不同。作者就不同职业学习...转载 2018-11-26 21:07:49 · 659 阅读 · 0 评论 -
使用Spark Streaming完成词频统计,并将结果写入到MySQL数据库中
首先在maven工程的pom.xml文件加入以下依赖:<properties> <spark.version>2.2.0</spark.version></properties> <!-- Spark Streaming 依赖--> <dependency> ...原创 2018-11-28 21:38:33 · 761 阅读 · 0 评论 -
使用Spark Streaming整合Spark SQL完成词频统计操作
SqlNetworkWordCount.scalapackage sparkimport org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSessionimport org.apache.spark.streaming.{Seconds, Streamin...原创 2018-11-28 21:14:34 · 543 阅读 · 0 评论 -
Spark Streaming初步总结
详情见Spark编程指南 https://aiyanbo.gitbooks.io/spark-programming-guide-zh-cn/content/spark-streaming/index.htmlhttps://www.ibm.com/developerworks/cn/opensource/os-cn-spark-streaming/index.htmlhttps://my.o...原创 2018-11-23 12:19:09 · 433 阅读 · 0 评论 -
Spark Streaming核心概念与编程实例
紧接我的上一篇博客 https://blog.csdn.net/CowBoySoBusy/article/details/84348469构建一个 Spark Streaming 应用程序一般来说需要 4 个步骤StreamingContext:1.初始化StreamingContextimport org.apache.spark._import org.apache.spark.st...原创 2018-11-23 19:50:30 · 194 阅读 · 0 评论 -
linux中数据仓库工具hive简介及安装部署详解
简介:Apache Hive是一个建立在Hadoop架构之上的数据仓库。它能够提供数据的精炼,查询和分析。hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分...原创 2018-11-13 21:38:04 · 267 阅读 · 0 评论 -
大数据学习路线
最近在学习大数据的相关知识,刚把hadoop伪分布式单机版配置环境搭好,基本操作也算练习了一遍,下面准备弄集群了.学完hadoop就要开始学Spark,时间还是挺紧的.现在大三了,自己也是第一次自学大数据,没什么经验,坑都是要一个一个踩的,这样才能更好地去锻炼自己的能力,提高自己包括自学等各方面的水平!平时我会把自己犯过的错和一些知识或者经验总结归纳到自己的博客里面,大数据方面也有挺多的,和我一...原创 2018-10-06 21:18:45 · 322 阅读 · 0 评论 -
shell编程、JVM、大数据等相关试题解析
1.运行一个脚本时 . /bin/script.sh 和 /bin/script.sh 两种方式有何区别?带点号的,是在当前bash进程中运行,不带点号的是在一个新的bash子进程中运行2.脚本中直接定义一个变量 a=3 和 export a=3 有何区别a=3在所运行的bash进程环境中有效export a=3 在所运行的bash进程和父进程中都有效3.shell脚本中如...原创 2019-02-26 11:23:11 · 627 阅读 · 0 评论