- 博客(5)
- 资源 (2)
- 收藏
- 关注
原创 Spark 读取 csv 时,当 csv 的字段值中有 JSON 串
Spark 读取 csv 时,当 csv 的字段值中有 JSON 串需求:统计 csv 中 有 json 串的 key 个数csv 数据:代码:package com.rm1024.scalaimport com.alibaba.fastjson.JSONimport org.apache.spark.sql.SparkSessionimport scala.collectio...
2019-04-15 10:41:34 1480
原创 Spark使用反射动态的将文本数据映射到样例类
Spark使用反射动态的将文本数据映射到样例类假如现在有一个tsv或者csv文件,文件中每条数据包含100+个字段.使用Spark读取这个文件.我看有些人的做法是直接创建一个类,然后类的字段一个一个的传.wdmy.要是有100多个字段,这不是很耗时?好吧,暂且不说耗时不好时,万一一个不小心,写错了一个字段,那该怎么办?反正我比较喜欢偷懒,像这种的情况,一般使用偷奸耍滑的方法.当然,使用反射的前...
2019-04-02 11:14:07 1029
原创 Spark中给RDD[Row]中的Row动态增加一个或者多个字段
Spark 中动态的给Row新增字段我们知道,在Spark中,我们读取csv或者MySQL等关系型数据库时,可以直接得到DataFrame.我们要想新增一个字段,可以通过DataFrame的API或者注册一个临时表,通过SQL语句能很方便的实现给增加一个或多个字段.但是,当我们将DataFrame转化成RDD的时候,RDD里面的类型就是Row,如果此时,要想再增加一个字段,该怎么办呢?Sho...
2019-04-02 10:29:47 17623 16
原创 多线程读取DBF文件
Java多线程读取大文件需求需要将DBF文件解析后存储到HBase 或者HDFS.起初打算使用Kettle读取,然后转存到HBase,小文件还好,一下子就ok来,但是,遇到一个1G大小(测试阶段,实际生产远远大于1G)的时候,Kettle输出到HBase时实在太慢,可能由于HBase的技术水平有限,再怎么优化,还是很慢.于是想着自己写一个程序解决一下,结果还是和kettle的差不多,就有点尴尬...
2019-04-01 23:09:22 1131 1
原创 ES6.7以及Kibana的安装.
ES简介:Elasticsearch(通常简称为ES)是一个高度可扩展的开源全文搜索和分析引擎。它允许您快速,近实时地存储,搜索和分析大量数据。它通常用作底层引擎/技术,为具有复杂搜索功能和要求的应用程序提供支持,本身扩展性很好,可以扩展到上百台服务器,处理PB级别的数据.Lucene与ES关系:Lucene只是一个库。想要使用它,你必须使用Java来作为开发语言并将其直接集成到你的应用...
2019-04-01 21:36:21 2265
windows-hadoop-bin-2.0.0.zip
2018-05-31
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人