自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

TMH_ITBOY的博客

The most handsome ITBoy

  • 博客(5)
  • 资源 (2)
  • 收藏
  • 关注

原创 Spark 读取 csv 时,当 csv 的字段值中有 JSON 串

Spark 读取 csv 时,当 csv 的字段值中有 JSON 串需求:统计 csv 中 有 json 串的 key 个数csv 数据:代码:package com.rm1024.scalaimport com.alibaba.fastjson.JSONimport org.apache.spark.sql.SparkSessionimport scala.collectio...

2019-04-15 10:41:34 1480

原创 Spark使用反射动态的将文本数据映射到样例类

Spark使用反射动态的将文本数据映射到样例类假如现在有一个tsv或者csv文件,文件中每条数据包含100+个字段.使用Spark读取这个文件.我看有些人的做法是直接创建一个类,然后类的字段一个一个的传.wdmy.要是有100多个字段,这不是很耗时?好吧,暂且不说耗时不好时,万一一个不小心,写错了一个字段,那该怎么办?反正我比较喜欢偷懒,像这种的情况,一般使用偷奸耍滑的方法.当然,使用反射的前...

2019-04-02 11:14:07 1029

原创 Spark中给RDD[Row]中的Row动态增加一个或者多个字段

Spark 中动态的给Row新增字段我们知道,在Spark中,我们读取csv或者MySQL等关系型数据库时,可以直接得到DataFrame.我们要想新增一个字段,可以通过DataFrame的API或者注册一个临时表,通过SQL语句能很方便的实现给增加一个或多个字段.但是,当我们将DataFrame转化成RDD的时候,RDD里面的类型就是Row,如果此时,要想再增加一个字段,该怎么办呢?Sho...

2019-04-02 10:29:47 17623 16

原创 多线程读取DBF文件

Java多线程读取大文件需求需要将DBF文件解析后存储到HBase 或者HDFS.起初打算使用Kettle读取,然后转存到HBase,小文件还好,一下子就ok来,但是,遇到一个1G大小(测试阶段,实际生产远远大于1G)的时候,Kettle输出到HBase时实在太慢,可能由于HBase的技术水平有限,再怎么优化,还是很慢.于是想着自己写一个程序解决一下,结果还是和kettle的差不多,就有点尴尬...

2019-04-01 23:09:22 1131 1

原创 ES6.7以及Kibana的安装.

ES简介:Elasticsearch(通常简称为ES)是一个高度可扩展的开源全文搜索和分析引擎。它允许您快速,近实时地存储,搜索和分析大量数据。它通常用作底层引擎/技术,为具有复杂搜索功能和要求的应用程序提供支持,本身扩展性很好,可以扩展到上百台服务器,处理PB级别的数据.Lucene与ES关系:Lucene只是一个库。想要使用它,你必须使用Java来作为开发语言并将其直接集成到你的应用...

2019-04-01 21:36:21 2265

多线程读取DBF文件

使用Java NIO 包下的RandomAccessFile读取DBF文件(可以拓展到多线程读取大文件)

2019-04-01

windows-hadoop-bin-2.0.0.zip

解压后,配置变量名为HADOOP_HOME,值为解压路径,即可在eclipse或者Idea中本地执行hadoop的计算任务

2018-05-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除