- 博客(190)
- 资源 (3)
- 收藏
- 关注
原创 总结23 -- linux上时间同步服务器的搭建
一、检查ntp是否安装 1、查看是否安装ntp命令如下: rpm –qa | grep ntp若只有ntpdate而未见ntp,则需删除原有ntpdate。比如:ntpdate-4.2.6p5-22.el7_0.x86_64python-ntplib-0.3.2-1.el7.noarch 2、删除已安装的ntp命令如下: rpm -e --nodeps ntpdate-4.2.6p5-22.el7.x86_64二、配置ntp服务 1、服务端#工具安装...
2021-06-02 19:32:02
251
原创 总结1 -- scala中的isInstanceOf和asInstanceOf区别
区别:1、若是想判断对象是否属于某个给定的类 -- 使用isInstanceOf方法2、若是想进行类似于java中的强制转换 ,那么就是用asInstanceOf方法,用asInstanceOf方法将引用转换为子类的引用。进一步说明:obj.isInstanceOf[T]就如同Java的obj instanceof T 判断obj是不是T类型。obj.asInstanceOf[T]就如同Java的(T)obj 将obj强转成T类型。...
2021-06-01 19:31:39
327
原创 【大数据开发】Java基础-总结22- java执行static代码块、构造块与构造方法的顺序
1、总结如下:1、Java中静态变量只能在类主体中定义,不能在方法中定义。2、静态变量属于类所有而不属于方法。3、静态块:用static申明,JVM加载类时执行,仅执行一次。4、构造块:类中直接用{ }定义,每次创建对象时执行5、执行顺序优先级:静态代码块 > main() > 构造代码块 > 构造方法2、实例如下:public class StaticDemo { static int age1 = 1; static{
2021-06-01 19:25:05
136
原创 redis--redis常用指令、命令行操作、jedis客户端连接两种方式、redis基本数据类型、redis持久化方式、redis伪分布式集群搭建
一、redis客户端的常用指令1、jedis客户端的端口号是63792、启动redis服务 :[root@master redis-4.0.14]# ./src/redis-server redis.conf3、进入客户端命令行格式: ./src//redis-cli -h ip地址 -p 6379[root@master redis-4.0.14]# ./src/redis-cli -h qianfeng01 -p 63794、停止redis:./src/redis..
2021-06-01 08:48:53
349
原创 总结22 -- Linux /usr/bin与/usr/local/bin的区别
说明:最近突然迷惑了/usr/bin与/usr/local/bin存放的不同,故查阅了资料稍微总结了下区别:/usr/bin下面的都是系统预装的可执行程序,会随着系统升级而改变。/usr/local/bin目录是给用户放置自己的可执行程序的地方,推荐放在这里,不会被系统升级而覆盖同名文件如果两个目录下有相同的可执行程序,谁优先执行受到PATH环境变量的影响?其实/usr/local/bin优先于/usr/bin, 一般都是如此。...
2021-05-31 21:56:14
257
原创 创建redis集群报错:/usr/share/rubygems/rubygems/core_ext/kernel_require.rb:55:in `require‘: cannot load suc
执行创建集群命令:redis-trib create --replicas 0 192.168.1.101:7003 192.168.1.101:7001 192.168.1.101:7002后会出现
2021-05-31 21:45:07
447
原创 flume采集出现com.alibaba.fastjson.JSONException: syntax error, pos 1, line 1, column 2��-�
采集后数据后,投递到hdfs上时出现以下错误:2021-05-26 11:44:44,103 (pool-5-thread-1) [ERROR - org.apache.flume.source.SpoolDirectory Source$SpoolDirectoryRunnable.run(SpoolDirect...
2021-05-26 14:12:04
4520
原创 Hive -- 常用的hive查询函数
1、get_json_object()函数get_json_object(STRING json_string, STRING path)说明:如果其中一个字段数据为json格式的字符串,但实际上的需求是获取json格式字符串中的一个属性的值,那么,就需要用到此函数了。{ "target_action":"11111","lval":{"hdata":{"channo":"118","uid":"...
2021-05-25 10:46:38
326
原创 Hive -- 时间戳转日期需要/1000的解释
hive中的时间戳转日期的函数为:from_unixtime(BIGINT unixtime,STRING format)首先这里我要说一下,这里的unixtime的输入单位十秒,也就是十位的BIGINT。但是呢,在我们实际中用的时间戳一般都是十三位的时间戳,精确到毫秒了,如果将精确到毫秒的时间戳输入方法中会有错误,出现错误的日期。解决办法:如果是13位的时间戳,可使用下面的方法from_unixtime(cast(timestamp/1000 as bigint)) as ti
2021-05-25 08:40:28
3687
原创 解决fuser命令不存在-fuser:command not found
解决办法:使用yum源安装即可yum install -y psmisc再次执行fuser -k 80/tcp 就OK了
2021-05-24 17:56:56
14317
2
原创 解决Nginx启动报nginx: [emerg] bind() to 0.0.0.0:80 failed (98: Address already in use)
执行命令 openresty -p /opt/app/collect-app/ 启动openresty 出现以下错误:错误原因:出现这种情况一般是80端口被占用了解决办法:法一:sudo fuser -k 80/tcp -- 执行此命令,将进程杀死后,启动nginx即可法二:ps -ef | grep openresty--执行此命令,将之进程杀死ps -ef | grep ngnix --执行此命令,将之进程杀死即可...
2021-05-24 17:53:21
3599
原创 Sqoop -error- ERROR tool.ImportTool: Import failed: java.io.IOException: No columns t generate for C
利用sqoop从mysql导入hive报错如下:21/05/17 21:54:07 ERROR tool.ImportTool: Import failed: java.io.IOException: No columns t generate for ClassWriter at org.apache.sqoop.orm.ClassWriter.generate(ClassWriter.java:1677) at org.apache.sqoop.tool.CodeG...
2021-05-17 21:59:35
998
原创 HIVE启动错误:org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.SafeModeExcept
说明:突然重启电脑后,重新开启hadoop,启动hive,出现以下错误:Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.SafeMo deException): Cannot create directory /tmp/hive/root/9dc0dfcd-a02d-41f3-b524-dc85089e4c3f. Name node is in...
2021-05-17 14:14:46
5878
4
原创 Hive -error- 数据仓库问题:FAILED: SemanticException Unable to determine if hdfs://master:9000/user/hiv
说明:今天我将集群的主机名修改了,集群能正常启动,但启动hive后,从hive的其中一张表中获取数据出现错误错误如下:FAILED: SemanticException Unable to determine if hdfs://master:9000/user/hive/warehouse/emp is encrypted: java.lang.IllegalArgumentException: Wrong FS: hdfs://master:9000/user/ ...
2021-05-16 22:17:09
1034
原创 Sqoop -error1- ClassNotFoundException: org.apache.hadoop.hive.conf.HiveConf
说明:在使用sqoop工具从mysql将数据导入hive中出现以下错误:21/05/13 17:39:19 ERROR hive.HiveConfig: Could not load org.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR is set correctly.21/05/13 17:39:19 ERROR tool.ImportTool: Import failed: java.io.IOException: ja.
2021-05-13 18:08:12
878
原创 DataX -error1- ERROR RetryUtil - Exception when calling callable, 异常Msg:DataX无法连接对应的数据库,可能原因是:1) 配置
说明:使用本机的mysql数据库,将mysql数据库的表的数据 导入 hdfs 中配置好同步文件后出现以下错误:2021-05-12 22:13:22.968 [job-0] WARN DBUtil - test connection of [jdbc:mysql://10.9.68.211:3306/testdb] failed, for Code:[DBUtilErrorCode-10], Description:[连接数据库失败. 请检查您的 账号、密码、数据库名称、IP、Port或.
2021-05-12 22:23:23
5377
2
原创 总结21 -- csv、json和xml的区别
说明:只总结了一下csv和json的格式之类的知识点,xml格式的文件大家都了解并且网上都有,就不在总结了一、csv语法:.每条记录占一行 以逗号为分隔符 逗号前后的空格会被忽略 字段中包含有逗号,换行符,空格,双引号等,该字段必须用双引号括起来 字段中的双引号用两个双引号表示 第一条记录,可以是字段名实例:id,name,age12,"bing bing",2013,chen,30二、json 1、json格式:JSON 数据的书写格式是键(名称)...
2021-05-11 19:09:32
4625
原创 总结20 -- 有关netstat命令的详解
经过查阅资料,总结有关netstat命令如下:目录netstat命令的作用:netstat命令的常见参数:如何利用netstat命令查看某个端口是否被占用?如何杀死杀掉占用端口的进程?netstat命令的作用:Netstat 命令用于显示各种网络相关信息,如网络连接,路由表,接口状态 (Interface Statistics),masquerade 连接等。netstat命令的常见参数:-a : (all)显示所有选项,默认不显示LISTEN相关-t...
2021-05-11 10:57:24
523
原创 Flume -error2- 启动flume出现错误:org.jboss.netty.channel.ChannelException: Failed to bind to: 0.0.0.0
执行以下命令启动flume出现错误:flume-ng agent -n a1 -c conf -f ${FLUME_HOME}/flumeconf/replicating-test.conf -Dflume.root.logger=INFO,console错误如下:21/05/11 08:58:21 ERROR lifecycle.LifecycleSupervisor: Unable to start EventDrivenSourceRunner: { source:org.ap.
2021-05-11 09:27:27
2812
原创 总结19 -- Linux下nc命令的作用、安装和常用的参数说明
当在flume数据采集的时候用到了nc命令,突然大脑一片空白,故查阅了一下资料,总结如下:nc命令的作用:实现任意TCP/UDP端口的侦听,nc可以作为server以TCP或UDP方式侦听指定端口 端口的扫描,nc可以作为client发起TCP或UDP连接 机器之间传输文件 机器之间网络测速nc命令的安装: #利用yum安装yum -y install nc常用参数:-l 用于指定nc将处于侦听模式。指定该参数,则意味着nc被当作server,侦听并接...
2021-05-10 22:46:07
478
原创 Flume -总结1- 启动flume的参数说明
启动命令[root@qianfeng01 ~]# flume-ng agent -n a1 -c conf -f ${FLUME_HOME}/flumeconf/syslog-m-log.conf -Dflume.root.logger=INFO,console启动命令由4部分组成:-n $agent_name:这里指定启动的agent 名,按照配置文件中的命名这里应该替换成a1-c conf: 指定配置文件目录,可以是相对路径或绝对路径-f ${FLUME_HOME}/flume.
2021-05-10 22:38:51
970
原创 Flume -error1- ERROR node.Application: A fatal error occurred while running. Exception follows.
启动flume时,出现一下错误:ERROR node.Application: A fatal error occurred while running. Exception follows.org.apache.commons.cli.ParseException: The specified configuration file does not exist: /usr/local/flume-1.8.0/conf/exec-m-hdfs.conf at org.apache....
2021-05-10 21:00:58
4857
原创 Hbase -案例2- 将数据导入hbase中、利用api完成在hbase建立命名空间(建立表和列簇)
数据准备:myuser.txtid name age1 bing 202 zhangfei 303 maliu 404 wangwu 505 xiaoli 50题目:创建hive表myuser 导入hbase表myuser(列簇名字base_info) 通过hbaseapi直接完成在hbase中创建表myuser1(列簇base_info) 、添加数据到表中解答: 1、创建hive表myuser -- 注:#创建临时表create table if ...
2021-05-08 22:23:18
913
5
原创 Hive -案例1- 将json数据导入hive表、hive与hbase整合和hbase与hive整合
说明:通过案例来温故下用到的知识点。案例: 数据准备:ip7.json{"id":188,"ip":"112.168.10.129","domain":"www.baidu.com","port":80}{"id":267,"ip":"132.158.140.119","domain":"www.baidu1.com","port":807}{"id":3445,"ip":"112.168.10.129","domain":"www.alibaba.com","port":805}..
2021-05-07 19:46:25
464
原创 IDEA 出现Cannot Download Sources 的解决办法
说明:利用idea自动下载源码时,居然提示Cannot Download Sources,仔细检查了下,命名对应的依赖已经添加了,ctrl+点击 查看源码进去后还是查看不到源码的详细信息,点击提示的Download sources 也无济于事,还是会提示Cannot Download Sources解决办法:点击terminal,在其中命令台中 输入mvn dependency:resolve -Dclassifier=sources执行完成后,IDEA会重新下载依赖包,然后再重新..
2021-05-07 14:07:24
4249
1
原创 Hbase - error1- FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask.
在hive与hbase整合中,将数据导入hibase中,发现错误如下:FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. java.lang.RuntimeException: MetaException(message:org.apache.hadoop.hive.serde2.SerDeException org.apache.hadoop.hive.hbase.HBaseSerD.
2021-05-07 09:55:05
604
1
原创 Hive中运行任务报错:FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask
错误如下:java.lang.IllegalArgumentException: Can not create a Path from an empty string at org.apache.hadoop.fs.Path.checkPathArg(Path.java:126) at org.apache.hadoop.fs.Path.<init>(Path.java:134) at org.apache.hadoop.mapreduce...
2021-05-06 21:47:50
4097
原创 Hive -- 使用本地模式的条件
为什么使用本地模式? 大多数的Hadoop, Job是需要Hadoop提供的完整的可扩展性来处理大数据集的。有的时候Hive的输入数据量是非常小的。在这种情况下,为查询触发执行任务的时间消耗可能会比实 际job的执行时间要多得多。对于大多数这种情况,Hive 可以通过本地模式在单台机器上(或 某些时候在单个进程中)处理所有的任务。对于小数据集,执行时间可以明显被缩短。所以用户在执行过程中临时启用本地模式:(很明显执行效率加快)hive.exec.mode.local.auto=tr...
2021-05-06 20:10:01
729
原创 Hbase -总结1- linux上Hbase的安装
注:重点说一下全分布式安装一、单机安装二、伪分布式安装三、全分布式安装(重点) 1、角色分配&准备工作# 准备工作 1.安装zookeeper 2.修改hbase-env.sh文件配置JDK的路径 --export JAVA_HOME=/usr/local/jdk1.8 配置关闭HBASE管理zookeeper --export HBASE_MANAGES_ZK=false (实际上是关闭Hbase自带的zook,使用自己配置...
2021-05-06 19:21:05
244
2
原创 Hive -案例1- 利用JsonSerDe 来解析json字符串
说明:如果数据格式是Json格式,如果按照常规的思路我们要使用自定义函数去解析, 那么在这里使用 JSonSerde就可以直接读取Json格式的文件,不需要做转化。 1、数据准备:ip6.json{"id":188,"ip":"112.168.10.129","domain":"www.baidu.com"}{"id":267,"ip":"132.158.140.119","domain":"www.baidu1.com"}{"id":3445,"ip":"112.168.10...
2021-05-05 17:54:42
384
原创 hive启动时 java.net.ConnectException:拒绝连接
出现错误如下:Exception in thread "main" java.lang.RuntimeException: java.net.ConnectException: Call From master/192.168.1.101 to master:9000 failed on connection exception: java.net.ConnectException: 拒绝连接; For more details see: http://wiki.apache.org/hadoop/.
2021-05-05 17:06:01
19410
9
原创 pom.xml文件中properties有什么用?
properties标签的作用:在标签内可以把版本号作为变量进行声明,后面dependency中用到版本号时可以用${变量名}的形式代替好处是:当版本号发生改变时,只有更新properties标签中的变量就行了,不用更新所有依赖的版本号。...
2021-05-05 11:22:46
683
原创 Hive -- 系统内置函数(常用的)、窗口函数和自定义函数(重要)
目录一、系统内置函数(常用) 1、函数查看 2、日期函数 3、字符串函数 4、类型转换函数 5、数学函数 6、判断是否为空的函数一、系统内置函数(常用) 1、函数查看#显示Hive中所有函数show functions;# 查看某个函数的用法desc function array; 2、日期函数#时间戳转日期select from_unixtime(1505456567);select from_u...
2021-05-05 10:53:39
609
原创 Git -error3- failed to push some refs to ‘https://gitee.com/JeitZz/big-data-daily-speech.git‘
描述过程:首先我是先创建一个目录,从git命令上 连接到远程仓库后,直接拉取分支 这个时候其实是拉取到mater分支中。 这时,我将master分支 推送到 其他分支 就会出现error: failed to push some refs to 'https://gitee.com/JeitZz/big-data-daily-speech.git' 解决办法: 将本地的master分支 推送到 其他指定分支中,需要自己...
2021-05-03 11:34:39
120
原创 Git -error2- 出现错误:fatal: refusing to merge unrelated histories
今天在本地目录中创建了一个本地仓库(有README,经过git init 后),然后把本地仓库与gitee 关联之后,执行git pull origin 某个分支 ,提醒:fatal: refusing to merge unrelated histories通过网上查阅资料发现, 出现错误的主要原因是:gitee中的README.md文件不在本地工作目录中;还有一种情况是两个分支是两个不同的版本,具有不同的提交历史解决办法:git pull origin test --allo...
2021-05-03 11:14:08
145
原创 Git -error1- fatal: Not a valid object name: ‘master‘.
说明:在git命令行中连接远程仓库 创建分支出现fatal: Not a valid object name: 'master'. git branch test fatal: Not a valid object name: 'master'.问题:描述-一个非法的master原因:是因为没有提交一个对象,从而本地还没有创建master,必须在commit之后才会真正建立一个master分支,然后才可以建立其它的分支。解决办法: ...
2021-05-03 10:50:36
839
原创 Hive -- 读时模式与写时模式
hive读时模式: 其实在hive中,hive处理的数据时大数据,数据加载过程采用“读时模式”,加载数据时(也就是保存表中数据)不进行校验,读取数据时会校验,如果不符合数据的格式,则会设置为NULL。传统的关系型数据库的写时模式: 其实传统的关系型数据库在进行数据加载时,必须验证数据格式是否符合表字段定义,如果不符合,数据将无法插入至数据库表中。--- 这就是 写时模式。...
2021-04-30 11:43:03
680
原创 IDEA中项目的两种打包方式
1、直接利用maven自带的打包工具打包最右侧maven按钮-->项目名-->lifestyle--> package然后就成功在左侧项目中的target中找到了,图示如下:2、利用IDEA的手段打包file --> project structure --> artifacts -> 点击 + --> JAR --> from module with dependencies --> main class (选择要打包的类..
2021-04-30 11:05:28
5458
原创 Hive --- 复杂的数据类型、列转行和行转列
一、复杂的数据类型都有哪些呢? hive中复杂数据类型分为三种,分别是 数组array、键值对map和结构体structarray : col array<基本类型> ,下标从0开始,越界不报错,以NULL代替map : column map<string,string>struct: col struct二、数组array的基本操作 1、创建一个表create table if not exists arr1(name strin...
2021-04-29 22:15:45
1098
原创 mysql中常见的聚合函数
1、AVG函数avg(col) :返回指定列的平均值2、COUNT函数COUNT(col) :返回指定列的非null的值的个数3、MIN函数 OR MAX函数MIN(col): 返回指定列的最小值MAX(col):返回指定列的最大值4、SUM函数SUM(col): 返回指定列的所有值的和...
2021-04-29 11:18:34
1205
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅