- 博客(9)
- 收藏
- 关注
原创 spark读写hbase性能对比
一、spark写入hbase hbase client以put方式封装数据,并支持逐条或批量插入。spark中内置saveAsHadoopDataset和saveAsNewAPIHadoopDataset两种方式写入hbase。为此,将同样的数据插入其中对比性能。依赖如下:<!-- https://mvnrepository.com/artifact/org.apache...
2018-08-29 19:29:01 8506 2
原创 spark ml 实现tf-idf和word2vec
一、tf-idf介绍 tf-idf(term frequency-inverse document frequency) 一种广泛用于文本挖掘的特征向量方法,用户反映术语对语料库中文档重要性,tf(Term Frequency):表示一个term与某个document的相关性,idf(Inverse Document Frequency):表示一个term表示document的主题的权重...
2018-08-22 19:59:28 3615 1
原创 spark ml 特征工程实现
package com.sparkMLlibStudy.modelimport java.utilimport org.apache.spark.ml.attribute.{Attribute, AttributeGroup, NumericAttribute}import org.apache.spark.ml.feature._import org.apache.spark.ml...
2018-08-22 11:56:21 1902
原创 pycharm开发spark项目配置和测试
机器环境是Ubuntu18.04LTS、python3.6.5和spark2.3.1,开发IDE是PyCharm 2018.2.1 (Community Edition),都已经安装完毕。主要介绍如何安装python开发spark程序。一、安装相关包1. 安装pysparksudo pip3 install pyspark2. 安装py4jspark的python版开发API...
2018-08-16 16:06:50 1834
原创 ELK 6.3.1安装与部署
机器环境:logstash-6.3.1+kibana-6.3.1+elasticsearch-6.3.1一、redis1. 安装redis服务端sudo apt-get install redis-server2. 检查redis服务进程ps -aux| grep redisredis 6783 0.1 0.0 58548 2432 ? Ssl 18:14 0:00 /u...
2018-08-14 17:02:34 1205
原创 SparkStreaming 2.3.1 API使用介绍
一、介绍Spark Streaming是核心SparkAPI的扩展,可实现实时数据流的可扩展,高吞吐量,容错流处理;可以从许多来源(如Kafka,Flume,Kinesis或TCP端口)中获取数据,并且可以使用以高级函数(如map,reduce,join和window)表示的复杂算法进行处理;最后,处理后的数据可以推送到文件系统,数据库和实时仪表板。。二、数据源sparkstreami...
2018-08-14 16:43:10 1611
原创 Hbase2x 增删改查 scala版
package com.sparkStudy.utilsimport java.utilimport org.apache.hadoop.conf.Configurationimport org.apache.hadoop.hbase.client.BufferedMutator.ExceptionListenerimport org.apache.hadoop.hbase.clie...
2018-08-12 15:12:43 817
原创 ClickHouse安装和使用技巧
一、简介ClickHouse是“战斗民族”俄罗斯搜索巨头Yandex公司开源的一个极具"战斗力"的实时数据分析数据库,是面向 OLAP 的分布式列式DBMS。ClickHouse有一个简称"CK",与Hadoop、Spark这些巨无霸组件相比,ClickHouse很轻量级,其特点:列式存储数据库,数据压缩 关系型、支持SQL 分布式并行计算,把单机性能压榨到极限 高可用 数据量级在...
2018-08-09 14:56:34 15922 2
原创 sparkSQL API使用总结
一、SparkSessionSpark SQL所有功能入口点是SparkSession,创建SparkSession,仅使用SparkSession.builder()就可以:import org.apache.spark.sql.SparkSession val spark = SparkSession .builder() .appName("Spark SQL basic ex...
2018-08-01 09:24:05 3575
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人