- 博客(11)
- 资源 (1)
- 问答 (12)
- 收藏
- 关注
原创 Storm 集成 Redis
Storm 实时计算完的结果一般会放到 Redis 中缓存。集成 Redis 所需的 pom 文件:<dependencies> <dependency> <groupId>org.apache.storm</groupId> <artifactId>stor
2019-02-18 22:16:09 615
原创 Storm集成 JDBC
创建 maven 工程,pom 文件如下:<dependencies> <dependency> <groupId>org.apache.storm</groupId> <artifactId>storm-core</artifactId> <version>1.0.3</vers
2019-02-18 16:18:13 426
原创 如何编写 Storm 程序?
创建 maven 工程,pom 文件如下:<dependencies> <dependency> <groupId>org.apache.storm</groupId> <artifactId>storm-core</artifactId> <version>1.0.3&
2019-02-18 15:37:12 625
原创 如何创建 Hive 的 UDF?
UDF(User Defined Function)又称:用户自定义函数。可以像 concat, substr那样的 hive 内置的函数一样直接用于 select 语句,简化复杂查询。编写 UDF 其实就是写一个类继承 org.apache.hadoop.hive.ql.exec.UDF 该类,在类里面写一个名为 evaluate 的方法,在方法里写相应的业务逻辑,最后打成 jar 包,提交到...
2019-02-17 13:45:56 918
原创 使用JDBC操作Hive
首先启动 Hive 的远程服务:hiveserver2 &所需 jar 包的 pom 文件如下:<dependencies> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-jdbc</artifactId> &
2019-02-16 22:16:39 1002
原创 如何创建 Hive 表的几种类型?
基于 MySql 的远程模式安装的 Hive 中的表存储在 hdfs 的 /user/hive/warehouse 目录下。hive 的表主要有 5 中类型:内部表分区表外部表桶表视图一、内部表表对应一个目录,表中的数据对应一个文件文件存储在 hdfs 的 Datanode 的数据块中,数据块默认的大小是 128m(Hadoop2.x的版本,1.x版本是 64m)...
2019-02-15 16:59:38 1705
原创 如何创建 SparkContext,SQLContext,StreamingContext 的几种方式?
首先,使用 ScalaIDE 或 IDEA 创建 Scala 的 Maven 工程。需要用到 spark-core,spark-sql,spark-streaming 的 jar 包,pom 文件如下:&lt;properties&gt; &lt;spark.version&gt;2.1.0&lt;/spark.version&gt; &lt;scala.version&
2019-02-14 20:20:56 3419
原创 Kafka 生产者API,消费者API,拦截器,流计算
pom 文件如下:<dependencies> <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId> <version>2.0.0</versio
2019-02-14 16:13:18 683 1
原创 Kafka 简介、集群架构、安装部署、基本命令
一、kafka 是什么?在实时计算中,Kafka 主要是用来缓存数据,storm 可以通过消费 kafka 中的数据进行实时计算。一套开源的分布式的消息队列系统,由 scala 写成,支持 javaAPI。Kafka 读消息采用 topic 进行归类。二、kafka 中有哪两种角色?发送消息:Producer(生产者)接收消息:Consumer(消费者)三、为什么要使用消息队...
2019-02-13 16:40:28 295
原创 Spark编程案例:针对每个分区进行数据库操作
需求:将有多个分区的 RDD 中的数据保存到数据库ps:针对分区进行数据库操作的话,建议使用 foreachPartition 算子,每个分区创建一个 Connection,避免一个 Connection 被多个分区使用而造成的序列化的麻烦。def saveToMySql(it:Iterator[(String, String)]) = { var conn:Connection = ...
2019-02-11 15:52:12 468
原创 Spark编程案例:创建自定义分区
需求:根据 jsp 文件的名字,将各自的访问日志放入到不同的分区文件中,如下:生成的分区文件例如:part-00000 文件中的内容:只包含了 java.jsp 的访问日志日志内容:192.168.88.1 - - [30/Jul/2017:12:53:43 +0800] "GET /MyDemoWeb/ HTTP/1.1" 200 259192.168.88.1 - - [30...
2019-02-11 14:49:10 556
fastjson + gson + jsonlib + jacksonjar包
2018-08-31
最长递增子序列问题可以在实际的工作中解决什么样的需求?
2019-06-10
js如何获取style.width中属性值的数值部分
2016-11-30
如何通过js改变image图片的大小
2016-11-29
如何在java中画一条线
2016-11-27
非完全二叉树是没有度为一的节点吗?
2016-10-23
java中的StringBuilder的append方法
2016-10-22
为什么我用java写的服务器端无法接受来自html的表单信息
2016-09-17
java为什么吗list允许存储重复元素,而set不允许存储重复元素
2016-08-28
多态的练习题!!!!!!!!!
2016-08-17
JAVA中数组的创建,以及数组在内存中的分配
2016-08-07
JAVA中char m =97,m变量中存储的是啥
2016-08-02
java变量中的自动类型转换
2016-08-01
TA创建的收藏夹 TA关注的收藏夹
TA关注的人