lvtula-CSDN博客

原创查看spark yarn日志

yarn logs -applicationId xxx

2019-08-29 16:07:01 672

转载 Hive 行列转换

一、列转行(对某列拆分，一列拆多行)使用函数：lateral view explode(split(column, ',')) numeg: 如表：t_row_to_column_tmp 数据如下，对tag列进行拆分SQL代码：select id,tag,tag_new from t_row_to_column_tmplateral view explode(spl...

2019-08-28 15:05:23 273

转载 HDFS的Java客户端操作代码(查看HDFS下的文件是否存在)详解

查看HDFS目录下得文件是否存在 1 package Hdfs; 2 3 import java.io.IOException; 4 import java.net.URI; 5 import org.apache.hadoop.conf.Configuration; 6 import org.apache.hadoop.fs.FileSystem; 7 impor...

2019-08-28 11:12:10 355

Flink跟其他的流计算引擎相比,最突出或者做的最好的就是状态的管理.什么是状态呢?比如我们在平时的开发中,需要对数据进行count,sum,max等操作,这些中间的结果(即是状态)是需要保存的,因为要不断的更新,这些值或者变量就可以理解为是一种状态,拿读取kafka为例,我们需要记录数据读取的位置(即是偏移量),并保存offest,这时offest也可以理解为是一种状态.Flink是怎么保证...

2019-08-27 14:33:01 3484 1

原创 MapReduce流程描述

一个mr程序启动的时候，最先启动的是MRAppMaster，MRAppMaster启动后根据本次job的描述信息，计算出需要的maptask实例数量，然后向集群申请机器启动相应数量的maptask进程 maptask进程启动之后，根据给定的数据切片范围进行数据处理，主体流程为：利用客户指定的inputformat来获取RecordReader读取数据，形成输入KV对将输入KV对传递给客...

2019-08-27 11:40:42 232

原创 linux 乱码文件删除

首页进入乱码文件所在文件夹/var/www/eqxiu/使用ls -i命令找到文件或文件夹的节点编号ls -i巧用find命令删除Linux下乱码文件及文件夹find -inum 681189 -delete前面的就是节点号了，接下来使用find命令查询并且删除巧用find命令删除Linux下乱码文件及文件夹-inum指根据节点号查询；-delete顾名思义就是删除操...

2019-08-23 15:27:56 178

原创 ERROR SparkContext:无法指定请求的地址: bind: Service 'sparkDriver' failed after 16 retries!

18/10/25 13:07:58 WARN Utils: Service 'sparkDriver' could not bind on port 0. Attempting port 1.18/10/25 13:07:58 WARN Utils: Service 'sparkDriver' could not bind on port 0. Attempting port 1.18/10/...

2019-08-22 16:51:34 983

转载 Spark读取MySQL数据

import java.util.{Properties, UUID} import org.apache.spark.sql.{SaveMode, SparkSession} import org.apache.spark.SparkConf object SparkReadMySQL { def main(args:Array[String]):Unit = { val appNameSuff...

2019-08-21 11:43:38 854

原创 Linux:命令行光标移动和删除整行

ctrl+a ctrl+e 分别代表把管标移动到最前和最后ctrl+u ctrl+k 分别代表光标处往前和光标处往后删除

2019-08-19 17:28:52 858

原创 MongoDB模糊查询

模糊查询简介MongoDB查询条件可以使用正则表达式，从而实现模糊查询的功能。模糊查询可以使用$regex操作符或直接使用正则表达式对象。MySQL MongoDB select * from student wherename like ’%joe%’ db.student.find({name:{$regex:/joe/}}) ...

2019-08-19 14:49:11 833

原创 ERROR yarn.ApplicationMaster: Promise already completed.

使用sparkStreaming读取kafka数据时，再需要借助hdfs存储路径下的文件可借助streamingContext，不使用spark.sparkSession即可

2019-08-09 17:06:28 556

原创 Mysql 存在既更新，不存在就添加（sql语句）

INSERT 语句的一部分,如果指定 ON DUPLICATE KEY UPDATE ，并且插入行后会导致在一个UNIQUE索引或PRIMARY KEY中出现重复值，则在出现重复值的行执行UPDATE，如果不会导致唯一值列重复的问题，则插入新行sql 语句原型：insert into table (player_id,award_type,num) values(20001,0,1) on...

2019-08-07 11:58:35 2320

原创 mysql 添加索引创建索引

-- 1.添加PRIMARY KEY（主键索引）ALTER TABLE `table_name` ADD PRIMARY KEY (`column`) ;-- 2.添加UNIQUE(唯一索引)ALTER TABLE `table_name` ADD UNIQUE (`column`);-- 3.添加INDEX(普通索引)ALTER TABLE `table_name` ADD IN...

2019-08-05 10:59:26 664

转载 Spark Streaming性能调优详解

SparkStreaming提供了高效便捷的流式处理模式，但是在有些场景下，使用默认的配置达不到最优，甚至无法实时处理来自外部的数据，这时候我们就需要对默认的配置进行相关的修改。由于现实中场景和数据量不一样，所以我们无法设置一些通用的配置（要不然SparkStreaming开发者就不会弄那么多参数，直接写死不得了），我们需要根据数据量，场景的不同设置不一样的配置，这里只是给出建议，这些调优不一...

2019-08-01 10:51:37 394

原创 Spark Streaming时间间隔性能测试

SparkStreaming能支持的最短时间间隔取决于数据源产生的速度，及对RDD的操作。本文针对同一数据源（日志由spark实时收集），测试RDD几种操作对应的合适的时间间隔。时间间隔time以如下形式作用于spark streaming：new StreamingContext(sparkConf, Milliseconds(time.toLong))测试数据源： log data w...

2019-08-01 10:42:56 2186

原创 sparkstreaming和kafka0.10版本整合

https://blog.csdn.net/sinat_27545249/article/details/78471034#%E5%9C%A8checkpoint%E4%B8%AD%E5%AD%98%E5%82%A8

2019-08-01 10:17:28 496

原创 Exception in thread “streaming-start” java.lang.NoSuchMethodError: org.apache.kafka.clients.consumer

Exception in thread “streaming-start” java.lang.NoSuchMethodError: org.apache.kafka.clients.consumer.KafkaConsumer.subscribe(Ljava/util/Collection;)VAsk QuestionWhen I submit the spark application...

2019-07-31 22:16:33 2911

原创 kafkaUtils提示User class threw exception: java.lang.AbstractMethodError

版本不一致造成的！！！因为我的IDEA对应的spark-streaming-kafka-0-10_2.11 的spark.version版本是2.2，而我集群的是2.3，修改我的IDEA对应的也是2.3后再打jar包提交即可解决问题...

2019-07-31 17:29:16 1945 1

转载 SparkStreaming消费kafka数据实时的进行抽取、过滤、转换，然后存储到HDFS中

概要：本例子为SparkStreaming消费kafka消息的例子，实现的功能是将数据实时的进行抽取、过滤、转换，然后存储到HDFS中。实例代码package com.fwmagic.testimport com.alibaba.fastjson.{JSON, JSONException}import org.apache.kafka.common.serialization.S...

2019-07-31 15:03:33 2990

转载 SparkStreaming之读取Kafka数据

本文主要记录使用SparkStreaming从Kafka里读取数据，并计算WordCount主要内容：1.本地模式运行SparkStreaming 2.yarn-client模式运行相关文章：1.Spark之PI本地2.Spark之WordCount集群3.SparkStreaming之读取Kafka数据4.SparkStreaming之使用redis保存Kafka的Offset5.S...

2019-07-31 14:58:03 1586 1

原创 flume接收kafka消息后台启动接收几天后突然flume采集不到数据，但kafka的topic有数据的问题所在

因为集群启用了kerberos认证，需要定期手动认证，不然启动的flume的application虽然启动着，但消费不到kafka的latest的数据。

2019-07-29 13:57:05 1266 1

转载 Robo3T使用小结

1，设置时间显示在未设置前数据内的时间数都比当前时间少8小时。比如2019-2-27 15:00,在MongoDB里面时间就是2019-2-27 7:00设置很简单，点击Options==>Display Date In...==>将UTC改为Local Timezone即可2，查询等于db.getCollection('lessons').find({is_onli...

2019-07-29 09:56:50 12939 3

原创 SparkSRE-基于Spark的语义推理引擎

http://openkg.cn/dataset/sparksre-spark

2019-07-24 13:47:08 436

原创 scala Md5加密

import java.security.MessageDigestobject Md5 { def hashMD5(content: String): String = { val md5 = MessageDigest.getInstance("MD5") val encoded = md5.digest((content).getBytes) e...

2019-07-24 13:45:52 1096

原创 SQL增加列

ALTER TABLE com_tag ADD com_id int(11) DEFAULT NULL COMMENT '公司id' AFTER id在id列后面增加一列com_id

2019-07-19 18:47:09 2867

转载 java 正则表达式--检验日期格式

使用Pattern类和Matcher类完成一个日期格式是否符合要求的验证过程。例如：日期格式要求为：yyyy-mm-dd正则表达式验证规则过程:日期： 2015 - 12 - 08格式：四位数字两位数字两位数字正则： \\d{4} - \\d{2} - \\d{2}其中“...

2019-07-18 22:58:31 1831

原创 scala 时间格式转换（String、Long、Date）

1）scala 时间格式转换（String、Long、Date）1、时间字符类型转Date类型[java] view plain copyimport java.text.SimpleDateFormat val time = "2017-12-18 00:01:56" val newtime :Date = new SimpleDateFormat("yyyy-MM-dd HH:...

2019-07-17 22:01:07 983

原创 spark写入tidb的坑

1、tidb中定义的字段是json，但计算完的数据不是json2、spark解析json的字段不一致，需加入判断json.contains(key)再去getString,否则可能空指针异常3、tidb定义的是json,但计算完的数据可能为\N(空值在hdfs的底层默认存储方式)...

2019-07-17 15:40:24 1801 1

原创 com.mysql.jdbc.MysqlDataTruncation: Data truncation: Invalid JSON text: invalid character '\\' looki

com.mysql.jdbc.MysqlDataTruncation: Data truncation: Invalid JSON text: invalid character '\\' looking for beginning of value拿出部分数据定位查看原来hdfs的空值在底层默认以\N存储，在mysql中建表时成json字段，需要把这种\N的换成[]即可，同时替换""也换成[...

2019-07-16 13:47:40 5479

原创 hadoop查看文件总条数及按某个关键词查询

hadoop fs -cat /xxxDetailFormat/xxx_team_format/part-00000|grep 'xxx'hadoop fs -cat/xxxDetailFormat/xxx_team_format/part-00000|wc -l 查看总条数hadoop fs -cat /xxCoxxMerge/CompanyxxWithxxx/part-00000|g...

2019-07-10 10:06:32 2772

原创关于fastjson解析提示nullpointerexception的信息

查看所解析字段是否为""空字符串 --》导致空指针异常及时没有发现空字符串可能在程序中drop掉了[]而出现的，所以解析的时候filter下非法数据就可以0x01 问题描述正常情况下fastJson解析失败会抛异常，但解析字符串数据为null、”“、“ ”这些情况下，fastJson返回null对象而不会抛异常，这样在调用对象时就导致了空指针异常的问题。0x02 解决方案对此...

2019-07-05 10:06:58 3579

原创 Error:scalac: Scala compiler JARs not found

idea改项目名，build时提示上述错误，查看下pom文件的名称是否与项目名一致！！！！！若不是，则reimport该项目的project再build即可

2019-07-04 19:46:24 6366 2

原创 Scala 字符替换特殊字符引号中括号

ss=ss.replaceAll("\"","") // 引号替换为空ss=ss.replaceAll("\\[","") // [替换为空ss=ss.replaceAll("\\]","") // ]替换为空

2019-07-02 10:22:39 1289

原创 Mysql异常com.mysql.jdbc.exceptions.jdbc4.CommunicationsException:Communications link failure

参考：https://wentao365.iteye.com/blog/2124869

2019-06-28 10:34:58 3319

原创 scala 基础十三 scala 模式匹配 Match case 的使用

1.scala中的match语句用来在一个列表中选择某一个分支来执行分支的语句块，类似于其他语言中的swtich..case语句 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 packag...

2019-06-27 10:27:57 598

原创 Spark之 RDD转换成DataFrame的Scala实现

依赖<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <version>2.1.3</version></dependency>RDD转化成...

2019-06-27 10:24:18 1356

原创 Spark RDD转换为DataFrame

#构造case class，利用反射机制隐式转换scala>importspark.implicits._scala> val rdd= sc.textFile("input/textdata.txt")scala>caseclass Person(id:Int,name:String)scala> valdf= rdd.map(_.split(...

2019-06-27 10:22:21 1998

转载 spark选择去重

在spark计算当中，我们日常有些简单需求，比如去重，比如有四列（appid、date、type、platform），我们只需要对appid，date进行去重，另外两列不关注。在spark中，distinct会对所有列执行去重操作，两行比较，只要有个一列有差异，就不算重复。要解决，只对某几列进行去重，可以使用Top N 的思路，也就是先分组，分组后，我们只取row_num=1第...

2019-06-27 10:21:03 4352

原创 cdh的flume后台启动命令

nohup flume-ng agent -c /etc/flume-ng/conf -f /opt/flume-file/.conf -n a1 -Dflume.root.logger=INFO,console &

2019-06-26 10:04:55 980

原创 grafana 监控启动

2019-06-24 14:03:52 2323

OpenSceneGraph三维渲染引擎设计与实践

《OpenSceneGraph三维渲染引擎编程指南》是一本全面深入介绍OpenSceneGraph（OSG）基础及核心API函数的入门教程。OpenSceneGraph（OSG）是一个基于工业标准OpenGL跨平台的三维开源场景图形系统应用程序开发接口（API）。作为一个高性能的图形开发引擎，它在3D程序开发中扮演着重要的角色。, 《OpenSceneGraph三维渲染引擎编程指南》按照OSG的设计结构体系，逐一深入讨论OSG的各个功能模块。首先介绍了OSG的历史和开源组织，以及配置开发环境；然后深入探讨OSG的核心库、NodeKits工具库、OSG插件库、互操作库及扩展库等，重点分析了如何将OSG集成到用户应用开发程序的核心功能及各种应用技术，主要包括场景组织和管理、场景数据优化、交互操作及数据实时动态更新等技术；最后探讨了关于OSG地形与地理信息的应用。, 《OpenSceneGraph三维渲染引擎编程指南》要求读者有比较好的C++基础知识和一些3D数学基础知识，适合所有对OpenGL和OSG编程感兴趣的读者。

2018-04-19

android开发

很好的APP开发过程详解，对于丰富自己的技术，涨面试经验有很大帮助

2018-04-17

android蓝牙开发

Android蓝牙数据传输实现Android蓝牙数据传输实现Android蓝牙数据传输实现

2018-03-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人