大数据
文章平均质量分 51
纸房子
这个作者很懒,什么都没留下…
展开
-
pyspark常用指令
Spark 2.2之后版本DataFrame操作读取数据——来源于RDD转换from pyspark.sql.types import Rowdef f(x):rel = {}rel[‘srcIP’] = x[14]rel[‘desIP’] = x[16]rel[‘signature’] = x[111]rel[‘eventClass’] = x[151]return rell...原创 2019-02-27 17:10:50 · 1301 阅读 · 0 评论 -
hbase shell常用操作
1). create 命令创建一个具有两个列族“grad”和“course”的表“scores”。其中表名、行和列都要用单引号括起来,并以逗号隔开。hbase(main):012:0> create ‘scores’, ‘name’, ‘grad’, ‘course’2). list 命令查看当前 HBase 中具有哪些表。hbase(main):012:0> list3)...原创 2019-02-27 17:15:05 · 318 阅读 · 0 评论 -
Hive笔记
从HDFS上创建表JSON格式:create external table sonar_https(host string,ip string,path string,port int,vhost string,data string)ROW FORMAT SERDE ‘org.apache.hive.hcatalog.data.JsonSerDe’STORED AS TEX...原创 2019-06-20 17:38:01 · 83 阅读 · 0 评论 -
Hbase统计行数的三种方法
count命令hbase> count ‘t1′hbase> count ‘t1′, INTERVAL => 100000hbase> count ‘t1′, CACHE => 1000hbase> count ‘t1′, INTERVAL => 10, CACHE => 1000INTERVAL为统计的行数间隔,默认为1000,CACHE...原创 2019-06-26 11:29:17 · 1501 阅读 · 0 评论 -
Container killed by YARN for exceeding memory limits. 10.4 GB of 10.4 GB physical memory used
执行spark时遇到这种问题,最开始–executor-memory 设为10G,到后来20G,30G,还是报同样的错误。1.一种解决方法网上大部分都说要增加spark.yarn.executor.memoryOverhead,先是2048,然后4096,后来干脆增加到15G(并将executor-memory调小到20G),不再报错。但一直很郁闷,到底是为什么呢?首先可以肯定的一点是增加...转载 2019-07-30 15:32:05 · 1254 阅读 · 0 评论 -
Regarding Spark paramters(executors, memory)
Ever wondered how to configure --num-executors, --executor-memory and --execuor-cores spark config params for your cluster?Let’s find out how…Lil bit theory: Let’s see some key recommendations that...原创 2019-08-14 17:07:56 · 238 阅读 · 0 评论 -
Spark读取压缩文件性能分析
引言HDFS上分布式文件存储,成为大数据平台首选存储平台。而Spark往往以HDFS文件为输入,为保持兼容性,Spark支持多种格式文件读取,大数据场景下,性能瓶颈往往是IO,而不是CPU算力,所以对文件的压缩处理成为了很必要的手段。Spark为提供兼容性,同时支持多种压缩包直接读取,方便于用户使用,不用提前对压缩格式处理,但各种压缩格式各有优缺点,若不注意将导致Spark的能力无法发挥出来。故...原创 2019-08-23 14:18:49 · 2235 阅读 · 1 评论 -
HBase Filter使用简要
创建表create 'test1', 'lf', 'sf'lf: column family of LONG values (binary value)– sf: column family of STRING values导入数据put 'test1', 'user1|ts1', 'sf:c1', 'sku1'put 'test1', 'user1|ts2', 'sf:c1', '...原创 2019-08-29 10:38:50 · 320 阅读 · 0 评论