2019年04月_TMH_ITBOY

10月 07月 06月 05月 04月 02月 01月

原创 Spark 读取 csv 时,当 csv 的字段值中有 JSON 串

Spark 读取 csv 时,当 csv 的字段值中有 JSON 串需求:统计 csv 中有 json 串的 key 个数csv 数据:代码:package com.rm1024.scalaimport com.alibaba.fastjson.JSONimport org.apache.spark.sql.SparkSessionimport scala.collectio...

2019-04-15 10:41:34 1480

原创 Spark使用反射动态的将文本数据映射到样例类

Spark使用反射动态的将文本数据映射到样例类假如现在有一个tsv或者csv文件,文件中每条数据包含100+个字段.使用Spark读取这个文件.我看有些人的做法是直接创建一个类,然后类的字段一个一个的传.wdmy.要是有100多个字段,这不是很耗时?好吧,暂且不说耗时不好时,万一一个不小心,写错了一个字段,那该怎么办?反正我比较喜欢偷懒,像这种的情况,一般使用偷奸耍滑的方法.当然,使用反射的前...

2019-04-02 11:14:07 1029

原创 Spark中给RDD[Row]中的Row动态增加一个或者多个字段

Spark 中动态的给Row新增字段我们知道,在Spark中,我们读取csv或者MySQL等关系型数据库时,可以直接得到DataFrame.我们要想新增一个字段,可以通过DataFrame的API或者注册一个临时表,通过SQL语句能很方便的实现给增加一个或多个字段.但是,当我们将DataFrame转化成RDD的时候,RDD里面的类型就是Row,如果此时,要想再增加一个字段,该怎么办呢?Sho...

2019-04-02 10:29:47 17623 16

原创多线程读取DBF文件

Java多线程读取大文件需求需要将DBF文件解析后存储到HBase 或者HDFS.起初打算使用Kettle读取,然后转存到HBase,小文件还好,一下子就ok来,但是,遇到一个1G大小(测试阶段,实际生产远远大于1G)的时候,Kettle输出到HBase时实在太慢,可能由于HBase的技术水平有限,再怎么优化,还是很慢.于是想着自己写一个程序解决一下,结果还是和kettle的差不多,就有点尴尬...

2019-04-01 23:09:22 1131 1

原创 ES6.7以及Kibana的安装.

ES简介:Elasticsearch(通常简称为ES)是一个高度可扩展的开源全文搜索和分析引擎。它允许您快速，近实时地存储，搜索和分析大量数据。它通常用作底层引擎/技术，为具有复杂搜索功能和要求的应用程序提供支持,本身扩展性很好，可以扩展到上百台服务器，处理PB级别的数据.Lucene与ES关系:Lucene只是一个库。想要使用它，你必须使用Java来作为开发语言并将其直接集成到你的应用...

2019-04-01 21:36:21 2265

多线程读取DBF文件

使用Java NIO 包下的RandomAccessFile读取DBF文件(可以拓展到多线程读取大文件)

2019-04-01

windows-hadoop-bin-2.0.0.zip

解压后,配置变量名为HADOOP_HOME,值为解压路径,即可在eclipse或者Idea中本地执行hadoop的计算任务

2018-05-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人