自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(89)
  • 收藏
  • 关注

原创 LZO索引文件失效说明

在hive中创建lzo文件和索引时,进行查询时会出现问题.hive的默认输入格式是开启小文件合并的,会把索引也合并进来。所以要关闭hive小文件合并功能!

2024-03-01 19:28:12 580

原创 搬家了,发现虚拟机链接不上,查找原因,解决了

3.在/etc/sysconfig/network-scripts/ifcfg-ens33配置文件中修改ip,网关,子网掩码。2.在虚拟网络编辑器中选在vmnet8,用管理员权限修改ip,网关,子网掩码,和物理主机对应。是网络配置的问题,因为ip地址变动,所以配置文件要进行改动。1.通过cmd查看本地主机ip地址。4.重启网络,测试是否连接成功!

2024-02-28 15:30:21 384

原创 IDEA安装配置以及安装配置Maven

</mirror><mirror>

2024-02-25 19:43:16 360

原创 flink 安装配置

flink 安装配置

2022-05-20 14:31:45 520

原创 nc -lk命令执行不了

以前通过压缩包netcat-0.7.1.tar.gz,安装netcat的,但是nc -lk命令执行不了(base) [root@single01 ~]# nc -lk 7777nc: invalid option -- 'k'Try `nc --help' for more information.后来通过yum下载:yum install -y nc,发现还是执行不了1、然后把以前配置环境变量,先注释掉vim /etc/profile.d/my.sh#-------------.

2022-05-18 15:50:15 1492 1

原创 Azkaban的使用

Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的key:value对的方式,通过配置中的Dependencies 来设置依赖关系。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。一、多个job任务JobA,JobB并行,JobC依赖A,B;创建工作流:1、创建azkaban.projectazkaban-flow-versio

2022-05-16 16:00:43 1404

原创 azkaban安装

#安装azkaban#下面第三个文件放到/opt/download目录下azkaban-db-3.84.4.tar.gz azkaban-exec-server-3.84.4.tar.gz azkaban-web-server-3.84.4.tar.gz#在/opt/software目录中创建azkaban目录[root@master01 download]# cd ../software/[root@master01 software]# mkdir azkaban...

2022-05-13 17:08:38 490

原创 Jedis连接池操作redis数据库

引入jar包 <dependency> <groupId>redis.clients</groupId> <artifactId>jedis</artifactId> <version>3.6.0</version> </dependency>创建连接池类public class JedisPoolUtils { private stati

2022-05-12 15:56:03 596

原创 KNN算法分类和回归

KNN(K-Nearest Neighbor)是最简单的机器学习算法之一,可以用于分类和回归,是一种监督学习算法。它的思路是这样,如果一个样本在特征空间中的K个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。也就是说,该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

2022-05-08 12:05:44 6003

原创 虚拟机内存空间扩展

转载:centos7扩容根目录(/dev/mapper/centos-root) - 知乎1、查看分区状况根目录在/dev/mapper/centos-root​[root@git50 ~]# df -h文件系统 容量 已用 可用 已用% 挂载点/dev/mapper/centos-root 17G 9.9G 7.2G 59% /devtmpfs 1.9G 0 1.9G 0% /de...

2022-04-28 23:51:22 1410

原创 mysql使用

##### cha04 mysql```mysql#1、视图 :永久存在,除非手动删除 drop view v_name; create or replace view V_name as select ... #视图只能针对已存在的表建立,只能用来查询,#2、临时表 :基于当前连接存在的,连接断开临时表自动消亡 create temporary table T_name(...); #临时表可以任意 #可以是新数据:insert i...

2022-04-27 11:39:56 115

原创 SparkStreaming介绍

SparkStreamingreids是基于内存的数据库,读取速度快Jedis是Redis官方推荐的面向Java的操作Redis的客户端Jedis是Redis的Java实现的客户端,其API提供了比较全面的Redis命令的支持。支持基本的数据类型如:String、Hash、List、Set、Sorted Set。优点:比较全面的提供了Redis的操作特性,相比于其他Redis 封装框架更加原生。编程模型: 使用阻塞的I/O,方法调用同步,程序流需要等到socket处理完I/O才能执行,.

2022-04-27 11:34:03 166

原创 hive函数

hive函数#UDF(单进单出)#UDTF聚合函数(多进单出)#UDAF(多进多出)wc 命令让我们可以计算文件的 Byte 数、字数、或是列数wc [-clw][--help][--version][文件...]参数-c , --bytes , --chars 只显示Bytes数-l , --lines 只显示列数-w , --words 只显示字数--help 在线帮助--version 显示版本信息[root@localhost ~]# wc demo1.txt 7 .

2022-04-27 11:27:33 193

原创 scala语言学习笔记

################ scala #####################1、在Windows下安装scala(配置环境变量SLALA_HOME:安装目录 Path:%SCALA_HOME%\bin)#2、在idea的全局配置里 安装scala 插件(plugin),安装之后要重启#3、在idea的project structure里的Global Libraries和Libraries添加scala-sdk-2.12.10#4、 new scala Clas...

2022-04-27 11:23:37 549

原创 hbase炸了,如何修改

一、登录zookeep客户端,删除hbase文件夹#zkCli.sh[zk: localhost:2181(CONNECTED) 1] ls /hbase[backup-masters, draining, flush-table-proc, hbaseid, master, master-maintenance, meta-region-server, namespace, online-snapshot, rs, running, splitWAL, switch, table][zk: l

2022-04-27 11:17:29 1396

原创 hbase语法和java_api操作hbase

#主键rowkey设计-+sqoop ->hbasehive ->hbasejava api ->hbaseconsole ->hbase #控制台建立访 问接口 hbase shell#存储结构 库:命名空间 namespace 表: table +列:列簇 column family htable...

2022-04-27 11:11:35 603

原创 flume数据迁移到kafka,和hdfs中

把users.csv,events.csv...迁移到kafka和hdfs中#创建本地文件目录,拖拽文件到目录中mkdir -p /opt/eventsourceusersuser_friends_rawuser_friendseventsevent_attendees_rawevent_attendeestesttrain#启动zookeeper 和kafka 服务zkServer.sh startnohup kafka-server-start.sh /opt/soft...

2022-04-27 11:06:40 365

原创 flume的使用

################## netcat 配置 ###################解压、重命名cd /opt/downloadtar -zxvf netcat-0.7.1.tar.gz -C /opt/software#可能报错需要将gcc升至5.3以上yum -y install centos-release-sclyum -y install devtoolset-9-gcc devtoolset-9-gcc-c++ devtoolset-9-binu...

2022-04-26 17:41:34 636

原创 kafka使用

#java API#生产者2.8.0<dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId> <version>2.8.1</version></dependency>########################Java API Producer#####...

2022-04-26 17:38:39 830

原创 sqoop安装和使用

################### SQOOP 1.4.6安装################### #解压重,重命名 [root@single01 download]# tar -zxvf /opt/download/sqoop-1.4.6.bin__hadoop-2.0.4.gz -C /opt/software/ [root@single01 download]# cd /opt/software/ [root@single01 software]# mv sq...

2022-04-26 17:31:19 841

原创 项目实战-电子商务消费行为分析

#1对transaction_details.csv中重复数据生成新的ID#通过shell找到重复的IDcat transaction_details.csv|awk -F ',' '{a[$1]++}END{for(i in a){if(a[i]>1) c++}; print c}' #=>101 101条重复的transaction_idcat transaction_details.csv|awk -F ',' '{a[$1]++}END{for(i i...

2022-04-26 17:28:06 366 1

原创 hive笔记

#HIVE#hive启动模式 在/opt/software/hive312/bin目录下启动 [root@single01 ~]# cd /opt/software/hive312/bin #首先启动元数据服务 nohup hive --service metastore 1>/dev/null 2>&1 & #1、方法一 hive客户端 hive #2、方法二 ...

2022-04-26 17:25:58 1461

原创 shell命令

shell命令 clear 清屏 find path -name filename #find 目录 ls 绝对路径 /path01/path02/... 相对路径 ./ /path01/path02/... 退回上级目录 ../ 当前用户的根路径 ~ 查看当前路径 pwd 查看当前子路径列表 ls ...

2022-04-26 17:15:28 119

原创 hadoop安装

################################## HADOOP 3.1.3 single1 安装配置 ##################################cd /opt/downloadls =>hadoop-3.1.3.tar.gz#解压到software文件夹里tar -zxvf /opt/download/hadoop-3.1.3.tar.gz -C /opt/software/chown -R root:root /opt/softwa..

2022-04-26 17:09:01 77

原创 hadoop笔记

#首次开启要格式化#删除data下面的文件cd /opt/software/hadoop313 切换到hadoop313目录rm -rf data/* 删除hadoop313/data/下面的文件rm -rf /tmp/hadoop/*namenode下的日志:/opt/software/hadoop313/data/dfs/name/current/fsimage...secondarynamenode下的日志: /tmp/hadoop/kb16/dfs/namesecond...

2022-04-26 17:00:24 934

原创 HIVE安装

############### HIVE 3.1.2 ############### # 1、解压并重命名 cd /opt/download tar -zxvf apache-hive-3.1.2-bin.tar.gz -C /opt/software/ mv /opt/software/apache-hive-3.1.2-bin/ /opt/software/hive312 cd /opt/software/hive312 # 2、环境变量并激...

2022-04-26 16:58:20 916

原创 JDBC——解析properties文件,创建自定义连接池,操作mysql

一、创建idea工程二、添加依赖包<!-- 连接mysql工具包--><dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.38</version></dependency>三、创建资源目录,并在其中创建properties文件

2022-04-25 08:30:01 726

原创 c3p0详细配置介绍

C3P0是一个开放源代码的JDBC连接池,它在lib目录中与Hibernate一起发布,包括了实现jdbc3和jdbc2扩展规范说明的Connection 和Statement 池的DataSources 对象。c3p0.acquireIncrement=3 c3p0.initialPoolSize=3 c3p0.idleConnectionTestPeriod=900 c3p0.minPoolSize=2 c3p0.maxPoolSize=50 c3p0.maxStatements=100

2022-04-22 17:18:20 1272

原创 JDBC——c3p0连接池的使用

本文主要讲解jdbc连接mySQL。一、在idea上新建maven工程二、添加依赖包<!-- 连接mysql工具包--><dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.38</version></dependency><

2022-04-22 17:04:54 1165

原创 MongoDB语法

show dbs 查看所有数据库 use kgckb16 如果有库则被选中,如果没有也不会报错,延迟创建 db 查看当前正在使用的数据库 db.createCollection("kb16") 在当前库中创建表(集合) show collections 查看当前库中的表 show tables db.kb15.drop() 删除表(集合) db.dropDa...

2022-04-20 19:39:16 698

原创 Python3 语法:

#python3#Python3 基础语法:#Python 内置函数{abs() divmod() input() open() staticmethod()all() enumerate() int() ord() str()any() eval() isinstance() pow() sum()basestring() execfile() issubclass() print() sup...

2022-04-19 17:35:19 449

原创 MongoDB安装

#解压并重命名tar -zxvf mongodb-linux-x86_64-rhel70-4.0.24.tgz -C /opt/software/mv mongodb-linux-x86_64-rhel70-4.0.24/ mongodb#创建数据库目录#创建数据存储目录:[root@single01 mongodb]# mkdir -p ./data/db#创建日志文件目录:(base)[root@single01 mongodb]# mkdir ./log#查看路径[root@sin.

2022-04-19 17:32:31 127

原创 scala:管理jedis实例方式、操作redis服务

引入jar包 <redis.version>3.7.0</redis.version> <dependency> <groupId>redis.clients</groupId> <artifactId>jedis</artifactId> <version>${redis.version}</version> </dependency&..

2022-03-09 19:51:03 1101

原创 hive 优化

########本质## hdfs +mapreduce##################问题所在########### 1、倾斜 1.1内容倾斜 1.2groupby 1.3小表 join 大表 2、过多 2.1join过多,导致job过多 2.2小文件过多 2.3Mapper或Reducer过多 3、使用不当 3.1count(distinct)...

2022-03-09 19:34:52 2371

原创 redis安装配置和常见命令

#################redis安装配置#################默认安装gcc版本4.8.5 yum -y install gcc #可能报错需要将gcc升至5.3以上 gcc -vyum -y install centos-release-scl yum -y install devtoolset-9-gcc devtoolset-9-gcc-c++ devtoolset-9...

2022-03-08 14:41:13 385

原创 SparkSession: rdd算子 和SQL练习

下面应用到的三个表数据部分如下,仅供参考customers.csv:"1","Richard","Hernandez","XXXXXXXXX","XXXXXXXXX","6303 Heather Plaza","Brownsville","TX","78521""2","Mary","Barrett","XXXXXXXXX","XXXXXXXXX","9526 Noble Embers Ridge","Littleton","CO","80126""3","Ann","Smith","X...

2022-03-07 17:36:23 2167

原创 SparkContext应用:rdd算子 SQL练习,from hdfs to mysql

本文主要讲解应用SparkContext从hdfs上获取数据,做搜索,结果传到mysql上的过程!一、应用scala编程,批处理上传数据到hdfs上1.1.在maven工程的同目录小创建config目录,在下面在创建datasource.properties配置文件config/datasource.properties配置文件的内容为:mysql.driver=com.mysql.jdbc.Drivermysql.url=jdbc:mysql://192.168.43.200:3306/

2022-03-03 20:06:42 854

原创 SparkContext应用:rdd算子 sql练习

本文主要讲解应用SparkContext做SQL练习。数据源Broken to Harness.txt,tags.csv是从hdfs上获取的,通过SparkContext做SQL。Broken to Harness.txt部分内容(仅供参考)Title: Broken to Harness A Story of English Domestic LifeAuthor: Edmund YatesCHAPTER I.MR. CHURCHILL'S IDEAS ARE..

2022-03-03 19:22:20 1424

原创 scala:函数式编程

/*函数式编程 */object Test { class Arr(arr:Array[Int]){ private var _arr:Array[Int]=arr //参数式函数 // 以函数为参数 def cal(a:Int)(f:(Int,Int)=>Int):Int={ _arr.fold(a)(f) } //以函数为返回值 def get():Int=>Option[Int]={ val...

2022-02-28 19:50:12 65

原创 scala:SQL练习

source/ratings.csv 部分参考数据userId,movieId,rating,timestamp1,296,5.0,11478800441,306,3.5,11478688171,307,5.0,11478688281,665,5.0,11478788201,899,3.5,11478685101,1088,4.0,11478684951,1175,3.5,11478688261,1217,3.5,11478783261,1237,5.0,11478688391,1

2022-02-28 19:47:37 424

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除