自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小白

一位不知名小白的个人学习记录,纯分享,谢谢大佬不吝赐教,欢迎评论以及纠错,拜谢。

  • 博客(66)
  • 收藏
  • 关注

原创 centos7 mysql5.6更换数据挂载文件夹datadir 后 mysql重启卡死问题

停止mysqld然后修改/etc/my.cnf datadir的位置,启动mysqld提示FAILED,查看日志:120609 11:31:31 mysqld_safe mysqld from pid file /var/run/mysqld/mysqld.pid ended120609 11:35:12 mysqld_safe Starting mysqld daemon with databases from /mnt/hgfs/mysql_data120609 11:35:13 [Warning

2020-12-11 09:46:20 370 1

原创 重装mysql 重启服务service mysqld restart一直卡着怎么解决Redirecting to /bin/systemctl restart mysqld.service

[root@redinfo ~]# service mysqld restartRedirecting to /bin/systemctl restart mysqld.service^C重装mysql之后,重启服务时,一直卡着无法重启服务怎么解决呢?如图:将这个文件夹删除,再次重新重启服务即可解决。...

2020-12-01 11:14:01 4016 2

原创 org.apache.hadoop.security.AccessControlException: Permission denied: user 怎么去解决

在执行Kettle操作时报了这个错。原因是hadoop的权限问题。解决方案在hdfs-site.xml中添加这个属性 <property> <name>dfs.permissions.enabled</name> <value>false</value> </property></configuration>将不询问权限。然后重启HDFS,

2020-11-19 16:02:00 938

原创 kettle正确连接Hive的姿势 亲测有效

一、版本1、hive-1.1.0-cdh5.14.2.tar.gz2、hadoop-2.6.0-cdh5.14.2.tar.gz3、pdi-ce-8.2.0.0-342.zip注:我用的是cdh版本,如果和我同版本的hadoop一定要用这个版本的Kettle,你真的信我试了五个kettle版本,亲测有效,试的都快哭了。二、kettle安装解压就可,但是前提是已经安装了JDK。三、添加驱动E:\Software\Kettle\data-integration\plugins\pentaho-b

2020-11-19 15:57:01 5417 1

原创 如何将hive中的表 导出为csv文件到linux本地目录

hive -e "set hive.cli.print.header=true;select * from events.train_data " | sed 's/[\t]/,/g' > /root/train_data.csvset hive.cli.print.header=true设置表头select * from events.train_data全表导出| sed 's/[\t]/,/g'将\t替换成,/root/train_data.csv目标本地路径...

2020-10-16 09:24:20 607

原创 调用Mapreduce来计算hbase的大表

先进入hbase的bin目录cd /opt/soft/hbase120/binhbase org.apache.hadoop.hbase.mapreduce.RowCounter 'exp:user_friend'

2020-09-30 16:23:10 124

原创 Spark——map和mapPartitions的区别

张三李四张三丰李世民张三对名字做wordcount val spark: SparkSession = SparkSession.builder().master("local[2]").appName("mappartition").getOrCreate() val sc: SparkContext = spark.sparkContext import spark.implicits._ val rdd: RDD[String] = sc.textFile("sr

2020-09-23 15:11:05 117

原创 java快速排序+二分法查找

import java.util.Scanner;public class test { int[] arr= new int[]{8,4,2,1,23,344,12}; public void quick(int low ,int high){ int lo = low,hi=high; if (lo>=hi){ return; } boolean flag = false;

2020-09-22 09:44:49 222

原创 hive入门操作

hive 入门什么是Hive基于Hadoop的数据仓库解决发难将结构话的数据文件映射为数据库表提供类sql的查询语言HQLHive的优势和特点提供了一个简单的优化模型HQL类SQL语法,简化MR开发支持在不同的计算框架上运行支持在HDFS和HBase上临时查询数据支持用户自定义函数,格式成熟的JDBC和ODBC驱动程序,用于ETL和BI稳定可靠的批处理Hive元数据管理记录数据仓库中模型的定义,各层级间的映射关系存储在关系数据库中默认Derby

2020-09-16 12:06:44 195

原创 spark项目打包build—— scala项目打包

<build> <sourceDirectory>src/main/scala</sourceDirectory> <plugins> <plugin> <groupId>org.scala-tools</groupId> <artifactId>maven-scala-plugin</artifactId> <vers

2020-09-11 12:12:47 717

原创 Exception in thread “main“ java.lang.StackOverflowError ——Spark栈溢出解决方案

这是spark栈溢出问题 解决方案:进入spark的conf目录:cd /opt/soft/spark234/conf/添加如下配置:spark.driver.extraJavaOptions="-Xss30M"重启spark 再次运行即可。

2020-09-11 12:11:05 1517

原创 Python——Python的Sublime Text3安装和实用插件推荐

首先安装Python解析环境,类似JVM安装Sublime Text3(编辑Python程序的软件)软件资源获取官网下载:https://www.sublimetext.com/3下载到Windows环境后直接无脑下一步安装即可,安装完成后有的电脑在桌面上是没有快捷方式的,需要自己去软件安装目录复制快捷方式到桌面。1.打开软件后点击 Tools->Build System->New Build System点击New Build System后,会生成一个空的配置文件,将以下配置文件

2020-08-28 11:05:13 3296

原创 SparkStreaming——SparkStreaming集成Kafka 读写kafka topic

SparkStreaming读Kafka:无状态流处理:object MyReadKafkaHandler { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("mytest").setMaster("local[2]") val sc = SparkContext.getOrCreate(conf)// 流处理的上下文类 val ssc = new Stre

2020-08-28 11:02:49 249

原创 大数据项目实战——数据流程:Flume->Kafka->SparkStreaming->Kafka

项目基本需求:利用Flume监控文件,将文件读取到Kafka中,再从Kafka中读入到SparkStreaming,在SparkStreaming中经过简单的处理后再写入到Kafka中。原数据格式数据为用户的朋友关系,一个用户对应很多个朋友,大概有几十万的数据,有需要数据的可以联系我。Flume监控文件读入到Kafka中a6.sources=s6a6.channels=c6a6.sinks=k6a6.sources.s6.type=spooldira6.sources.s6.spool

2020-08-28 11:01:36 210

原创 redis学习笔记——数据类型、应用场景、数据命令

redisredis安装与学习一、安装二、学习1、Redis数据类型(1)String(字符串)(2)Hash(哈希)(3)List(列表)(4)Set(集合)(5)zset(sorted set:有序集合)2、各个数据类型应用场景3、redis keys命令4、String 命令5、Hash 命令6、list 命令7、set 命令8、有序集合(sorted set)redis安装与学习一、安装1、下载[root@zjw opt]# wget http://download.redis.io/rel

2020-08-26 18:43:28 184

原创 Python Java Scala连接redis数据库

Java连接redismaven: <!-- https://mvnrepository.com/artifact/redis.clients/jedis --> <dependency> <groupId>redis.clients</groupId> <artifactId>jedis</artifactId> <version>2.9.0</version>

2020-08-26 18:39:59 268

原创 centos7下安装Redis

安装1、下载[root@zjw opt]# wget http://download.redis.io/releases/redis-4.0.6.tar.gz2、解压:[root@zjw opt]# tar -zxf redis-4.0.6.tar.gz3、移动[root@zjw opt]# mv redis-4.0.6 soft/redis4064、安装gcc依赖[root@zjw opt]# yum install gcc5、编译安装进入目录:[root@zjw redis

2020-08-25 16:08:52 134

原创 SparkStreaming集成Kafka和Flume、SparkStreaming window使用方法

1、Spark Streaming整合Flume(1)pushmaven: <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-flume_2.11</artifactId> <version>2.3.4</version> </dependency>imp

2020-08-20 20:17:25 167

原创 SparkStreaming整合kafka——黑名单过滤

import org.apache.kafka.clients.consumer.ConsumerConfigimport org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.streaming.kafka010.{ConsumerStrategies, KafkaUtils, LocationStrategies}import org.apache.spark.streaming.{Secon

2020-08-20 20:11:48 840

原创 Spark学习笔记(五)——Flume日志收集、Flume安装配置、工作流程、avro source、taildir source、HDFS sink、拦截器(Interceptors)

FlumeFlume日志收集一、Apache Flume简介二、Flume架构三、Flume安装配置1、安装2、首次测试四、Flume学习1、Flume工作流程2、Flume构成五、Source1、exec source2、spooling directory source3、http source4、avro source5、taildir source六、channel七、Sink1、avro sink2、HDFS sink3、hive sink八、Flume Sink组九、拦截器(Intercepto

2020-08-20 19:37:03 479

原创 Spark学习笔记(四)——SparkStreaming、DStream、Receivers、编程实例、整合Flume、整合Kafka、整合Spark SQL

Spark Streaming基于Spark Streaming的流数据处理和分析一、流是什么二、Spark Streaming1、简介2、流数据处理框架3、内部工作流程三、StreamingContext1、创建2、入门 wordcount3、transform包装四、DStream1、概念2、Input DStreams与接收器(Receivers)3、Dstream创建(内建流式数据源)4、DStream支持的转换算子五、SparkStreaming编程实例1、HDFS2、Spark Streamin

2020-08-20 12:21:57 371

原创 kafka学习——kafka常用指令整合

kafka常用指令1、启动服务:[root@zjw ~]# kafka-server-start.sh /opt/soft/kafka211/config/server.properties 2、关闭kafka-server-stop.sh 3、查看所有topic [root@zjw ~]# kafka-topics.sh --zookeeper 192.168.253.150:2181 --list4、查看所有topic详细信息 [root@zjw ~]# kafka-topic

2020-08-20 12:05:22 201

原创 Kfka学习笔记(一)——消息中间件、kafka安装、指令、架构介绍、kafkaAPI、kafka优化

Kafka核心原理Kafka核心原理一、消息中间件(MQ)1、作用2、MQ术语3、工作模式4、常见消息中间件二、Kafka介绍1、介绍2、Kafka安装3、指令学习4、Kafka架构5、Kafka Topic6、Kafka Message7、Kafka Producer8、Kafka Broker9、Kafka Consumer10、Kafka数据流11、ZooKeeper在Kafka中的作用三、Kafka API1、Kafka Producer API(1)代码实现(2)配置项2、Kafka Consum

2020-08-19 10:15:38 1200

原创 Python——Linux环境安装Anaconda(开源Python编辑软件)

Python安装(1) 前置安装spark(2) 在/etc/profile配置spark环境\#spark environmentexport SPARK_HOME=/opt/soft/spark234export SPARK_CONF_DIR=$SPARK_HOME/confexport PATH=$PATH:$SPARK_HOME/bin(3) 安装bzip2[root@zjw ~]# yum install -y bzip2(此步不执行安装anaconda会报错)

2020-08-18 10:02:41 215

原创 Spark运行日志去除——log4j.properties

log4j.rootLogger=ERROR,stdoutlog4j.appender.stdout=org.apache.log4j.ConsoleAppenderlog4j.appender.stdout.layout=org.apache.log4j.PatternLayoutlog4j.appender.stdout.layout.ConversionPattern=%d %p [%-20c] - %m%nlog4j.appender.logfile=org.apache.log4j.Fil

2020-08-17 09:22:33 1243

原创 Spark学习笔记(三)——SparkSQL(DataSet、DataFrame、hive集成、连接mysql)

Spark SQLSpark SQL精华及与Hive的集成一、Spark SQL简介1、SQL on Hadoop2、Spark SQL前身3、Spark SQL架构4、Spark SQL运行原理5、Catalyst优化器二、Spark Dataset API1、创建2、Dataset3、演练三、Spark DataFrame API1、介绍2、对比3、创建4、常用操作5、RDD和DataFrame转换四、Spark SQL操作外部数据源1、Parquet文件2、集成hive3、RDBMS表Spark S

2020-08-17 09:04:31 405

原创 Spark——基于Spark Graphx的图形数据分析

基于Spark Graphx的图形数据分析官网指导https://spark.apache.org/docs/latest/graphx-programming-guide.html#pregel-api一、图计算的好处许多大数据以大规模图或网络的形式呈现许多非图结构的大数据,常会被转换为图模型进行分析图数据结构很好地表达了数据之间的关联性二、图的概念1、图的基本概念图是由顶点集合(vertex)及顶点间的关系集合(边edge)组成的一种网状数据结构通常表示为二元组:Gragh=(

2020-08-17 08:51:46 879

原创 Spark学习——装载数据源

Spark装载CSV数据源文件预览使用SparkContextval lines = sc.textFile("file:///home/kgc/data/users.csv")val fields = lines.mapPartitionsWithIndex((idx, iter) => if (idx == 0) iter.drop(1) else iter).map(l => l.split(","))val fields = lines.filter(l=>l.

2020-08-17 08:44:34 140

原创 SparkStreaming——SparkStreaming读写Kafka

SparkStreaming读Kafka:无状态流处理:object MyReadKafkaHandler { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("mytest").setMaster("local[2]") val sc = SparkContext.getOrCreate(conf)// 流处理的上下文类 val ssc = new Stre

2020-08-14 09:51:11 444

原创 Python——linux环境安装

Python安装(1) 前置安装spark(2) 在/etc/profile配置spark环境#spark environmentexport SPARK_HOME=/opt/soft/spark234export SPARK_CONF_DIR=$SPARK_HOME/confexport PATH=$PATH:$SPARK_HOME/bin(3) 安装bzip2[root@zjw ~]# yum install -y bzip2(此步不执行安装anaconda会报错)(

2020-08-12 18:37:49 168

原创 Spark学习笔记(二)——分布式计算原理

Spark分布式计算原理一、Spark WordCount运行原理图中过程解析A:val lines: RDD[String] = sc.textFile("hdfs"://)//这行代码会生成两个RDD(HadoopRDD、MapPartitionsRDD)//将内容分词后压平B:val words: RDD[String] = lines.flatMap(.split(" "))//这行代码通过flatMap生成一个新的RDD//将单词和1组合到一起C:val pairs: RDD[

2020-08-10 19:25:52 622

原创 Spark学习笔记(一)——基础和架构、安装配置、Spark架构设计、Spark API、RDD、RDD操作、RDD转换算子、RDD动作算子

Spark基础和架构Spark基础和架构一、Spark和Hadoop的比较二、Spark优势三、Spark技术栈四、Spark环境部署1、安装配置2、测试五、Spark架构设计1、运行架构2、运行基本流程3、核心组件六、Spark API1、SparkContext2、SparkSession3、RDD核心七、RDD1、RDD概念2、五大特性3、RDD与DAG4、RDD编程流程5、RDD的创建(1)使用集合创建RDD(2)通过加载文件产生RDD(3)创建PairRDD的方法(4)其他创建RDD的方法八、RD

2020-08-10 19:21:32 332

原创 Scala学习笔记(四) ——模式匹配、偏函数、运算符、异常、隐式类、scala高级类型、scala正则表达式

Scala拓展一、Scala模式匹配1、match表达式类似Java switch语句能处理任何类型不需要break能够生成值//基本模式匹配def matchTest(x: Int): String = x match { case 1 => "one" case 2 => "two" case _ => "many"}matchTest(3) // manymatchTest(1) // one//模式守卫(在模式后面加上if 条件)

2020-08-03 10:52:37 436

原创 Scala学习笔记(三)——面向对象、类、抽象类、伴生、内部类、样例类、枚举、泛型类、类型边界、型变、特质、动态混入、包

Scala面向对象一、基本概念1、类的概念类通过class关键字定义类通过new关键字创建实例类拥有成员变量和方法类的成员默认为public,也支持private、protected类中无法定义静态成员变量和方法类无需明确定义构造方法,通过构造参数列表声明为类的一部分类是对象的抽象,而对象是类的具体实例。类是抽象的,不占用内存,而对象是具体的,占用存储空间。类是用于创建对象的蓝图,它是一个定义包括在特定类型的对象中的方法和变量的软件模板。我们可以使用 new 关键字来创建类的对象,实

2020-08-03 10:50:57 191

原创 Scala学习笔记(一)——函数定义、匿名函数、高阶函数、柯里化、隐式参数、闭包

Scala方法和函数函数式编程:函数是Scala的核心方法是类的一部分,属于定义在类中的函数定义函数//怎么定义一个函数以及传参object FunctionDemo01 { def main(args: Array[String]): Unit = { val i: Int = square(5) // println(i)// printName("zhangsan") println(f2(2)) println(f3(2, 2))

2020-07-30 09:09:41 369

原创 Spark装载数据源

Spark装载CSV数据源文件预览使用SparkContextval lines = sc.textFile("file:///home/kgc/data/users.csv")val fields = lines.mapPartitionsWithIndex((idx, iter) => if (idx == 0) iter.drop(1) else iter).map(l => l.split(","))val fields = lines.filter(l=>l.

2020-07-29 16:59:17 119

原创 spark在linux下运行jar包

在linux上运行jar包pom文件:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/x

2020-07-29 16:53:28 1668

原创 Scala学习笔记(二)--------数组Array方法大全(持续更新中) 介绍+演练

Scala 数组Scala 语言中提供的数组是用来存储固定大小的同类型元素,数组对于每一门编辑应语言来说都是重要的数据结构之一。声明数组变量并不是声明 number0、number1、…、number99 一个个单独的变量,而是声明一个就像 numbers 这样的变量,然后使用 numbers[0]、numbers[1]、…、numbers[99] 来表示一个个单独的变量。数组中某个指定的元素是通过索引来访问的。数组的第一个元素索引为0,最后一个元素的索引为元素总数减1。声明数组var z:Arr

2020-07-03 00:37:22 1169 3

原创 如何将hbase数据导入hive

直接上做法。先查看要导的表:hbase(main):001:0> listTABLE mydemo:mytest m

2020-07-01 19:27:41 845 1

原创 Sqoop之增量导入数据之Shell脚本之手把手教学--------------对着写领导再也不用担心你加班了

不想加班到凌晨,又想一键导入昨晚的数据,那咋办呢?定时启动Shell脚本。废话少说,直接上:首先先在mysql创建一个表用来测试:mysql> create table myorder(ordid int primary key not null auto_increment,orderno varchar(20),orderdate date);Query OK, 0 rows affected (0.02 sec)mysql> insert into myorder(order

2020-07-01 19:18:00 449

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除