自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 spark读写hbase性能对比

一、spark写入hbase    hbase client以put方式封装数据,并支持逐条或批量插入。spark中内置saveAsHadoopDataset和saveAsNewAPIHadoopDataset两种方式写入hbase。为此,将同样的数据插入其中对比性能。依赖如下:<!-- https://mvnrepository.com/artifact/org.apache...

2018-08-29 19:29:01 8506 2

原创 spark ml 实现tf-idf和word2vec

一、tf-idf介绍    tf-idf(term frequency-inverse document frequency) 一种广泛用于文本挖掘的特征向量方法,用户反映术语对语料库中文档重要性,tf(Term Frequency):表示一个term与某个document的相关性,idf(Inverse Document Frequency):表示一个term表示document的主题的权重...

2018-08-22 19:59:28 3615 1

原创 spark ml 特征工程实现

package com.sparkMLlibStudy.modelimport java.utilimport org.apache.spark.ml.attribute.{Attribute, AttributeGroup, NumericAttribute}import org.apache.spark.ml.feature._import org.apache.spark.ml...

2018-08-22 11:56:21 1902

原创 pycharm开发spark项目配置和测试

机器环境是Ubuntu18.04LTS、python3.6.5和spark2.3.1,开发IDE是PyCharm 2018.2.1 (Community Edition),都已经安装完毕。主要介绍如何安装python开发spark程序。一、安装相关包1. 安装pysparksudo pip3 install pyspark2. 安装py4jspark的python版开发API...

2018-08-16 16:06:50 1834

原创 ELK 6.3.1安装与部署

机器环境:logstash-6.3.1+kibana-6.3.1+elasticsearch-6.3.1一、redis1. 安装redis服务端sudo apt-get install redis-server2. 检查redis服务进程ps -aux| grep redisredis 6783 0.1 0.0 58548 2432 ? Ssl 18:14 0:00 /u...

2018-08-14 17:02:34 1205

原创 SparkStreaming 2.3.1 API使用介绍

一、介绍Spark Streaming是核心SparkAPI的扩展,可实现实时数据流的可扩展,高吞吐量,容错流处理;可以从许多来源(如Kafka,Flume,Kinesis或TCP端口)中获取数据,并且可以使用以高级函数(如map,reduce,join和window)表示的复杂算法进行处理;最后,处理后的数据可以推送到文件系统,数据库和实时仪表板。。二、数据源sparkstreami...

2018-08-14 16:43:10 1611

原创 Hbase2x 增删改查 scala版

package com.sparkStudy.utilsimport java.utilimport org.apache.hadoop.conf.Configurationimport org.apache.hadoop.hbase.client.BufferedMutator.ExceptionListenerimport org.apache.hadoop.hbase.clie...

2018-08-12 15:12:43 817

原创 ClickHouse安装和使用技巧

一、简介ClickHouse是“战斗民族”俄罗斯搜索巨头Yandex公司开源的一个极具"战斗力"的实时数据分析数据库,是面向 OLAP 的分布式列式DBMS。ClickHouse有一个简称"CK",与Hadoop、Spark这些巨无霸组件相比,ClickHouse很轻量级,其特点:列式存储数据库,数据压缩 关系型、支持SQL 分布式并行计算,把单机性能压榨到极限 高可用 数据量级在...

2018-08-09 14:56:34 15922 2

原创 sparkSQL API使用总结

一、SparkSessionSpark SQL所有功能入口点是SparkSession,创建SparkSession,仅使用SparkSession.builder()就可以:import org.apache.spark.sql.SparkSession val spark = SparkSession .builder() .appName("Spark SQL basic ex...

2018-08-01 09:24:05 3575

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除