2018年08月_Mr_哲

原创 spark读写hbase性能对比

一、spark写入hbase hbase client以put方式封装数据，并支持逐条或批量插入。spark中内置saveAsHadoopDataset和saveAsNewAPIHadoopDataset两种方式写入hbase。为此，将同样的数据插入其中对比性能。依赖如下：<!-- https://mvnrepository.com/artifact/org.apache...

2018-08-29 19:29:01 8506 2

原创 spark ml 实现tf-idf和word2vec

一、tf-idf介绍 tf-idf(term frequency-inverse document frequency) 一种广泛用于文本挖掘的特征向量方法，用户反映术语对语料库中文档重要性，tf(Term Frequency):表示一个term与某个document的相关性，idf(Inverse Document Frequency):表示一个term表示document的主题的权重...

2018-08-22 19:59:28 3615 1

原创 spark ml 特征工程实现

package com.sparkMLlibStudy.modelimport java.utilimport org.apache.spark.ml.attribute.{Attribute, AttributeGroup, NumericAttribute}import org.apache.spark.ml.feature._import org.apache.spark.ml...

2018-08-22 11:56:21 1902

原创 pycharm开发spark项目配置和测试

机器环境是Ubuntu18.04LTS、python3.6.5和spark2.3.1，开发IDE是PyCharm 2018.2.1 (Community Edition)，都已经安装完毕。主要介绍如何安装python开发spark程序。一、安装相关包1. 安装pysparksudo pip3 install pyspark2. 安装py4jspark的python版开发API...

2018-08-16 16:06:50 1834

原创 ELK 6.3.1安装与部署

机器环境：logstash-6.3.1+kibana-6.3.1+elasticsearch-6.3.1一、redis1. 安装redis服务端sudo apt-get install redis-server2. 检查redis服务进程ps -aux| grep redisredis 6783 0.1 0.0 58548 2432 ? Ssl 18:14 0:00 /u...

2018-08-14 17:02:34 1205

原创 SparkStreaming 2.3.1 API使用介绍

一、介绍Spark Streaming是核心SparkAPI的扩展，可实现实时数据流的可扩展，高吞吐量，容错流处理;可以从许多来源（如Kafka，Flume，Kinesis或TCP端口）中获取数据，并且可以使用以高级函数（如map，reduce，join和window）表示的复杂算法进行处理;最后，处理后的数据可以推送到文件系统，数据库和实时仪表板。。二、数据源sparkstreami...

2018-08-14 16:43:10 1611

原创 Hbase2x 增删改查 scala版

package com.sparkStudy.utilsimport java.utilimport org.apache.hadoop.conf.Configurationimport org.apache.hadoop.hbase.client.BufferedMutator.ExceptionListenerimport org.apache.hadoop.hbase.clie...

2018-08-12 15:12:43 817

原创 ClickHouse安装和使用技巧

一、简介ClickHouse是“战斗民族”俄罗斯搜索巨头Yandex公司开源的一个极具"战斗力"的实时数据分析数据库，是面向 OLAP 的分布式列式DBMS。ClickHouse有一个简称"CK"，与Hadoop、Spark这些巨无霸组件相比，ClickHouse很轻量级，其特点：列式存储数据库，数据压缩关系型、支持SQL 分布式并行计算，把单机性能压榨到极限高可用数据量级在...

2018-08-09 14:56:34 15922 2

原创 sparkSQL API使用总结

一、SparkSessionSpark SQL所有功能入口点是SparkSession，创建SparkSession，仅使用SparkSession.builder()就可以：import org.apache.spark.sql.SparkSession val spark = SparkSession .builder() .appName("Spark SQL basic ex...

2018-08-01 09:24:05 3575

baymax_007的博客