- 博客(220)
- 收藏
- 关注
原创 Scala中的split函数使用
Scala 中的 split 函数主要有下面两种参数形式:def split(arg0: String): Array[String]def split(arg0: String, arg1: Int): Array[String]其实它的第一种方式,可以认为将第二种方式的 arg1 设置为 0 形成的结果arg0 代表的是一个正则表达式,代表根据 arg0 来分割arg1 是对分割后的字串的个数做限定。arg1 的取值大体来说有三种方式。小于 0、等于 0、大于 0一、当 arg1 大于
2022-05-26 23:43:56
1071
原创 Scala中的切片操作
Scala 中的切片操作,虽然没有 Python 中的灵活,但也方便了很多。如下所示:object SplitOfScala { def main(args: Array[String]): Unit = { val aList = List(1, 2, 3, 4, 5, 6) //scala 中的切片操作(列表) println(aList.slice(2, 5)) //将前面的第n个元素,切分为一组,剩下的为一组,共为两个数组 println(aList.s
2022-05-26 21:37:51
981
原创 presto-272启动,单独设置jdk版本
kettle9.2无法使用orc output组件presto-272启动,必须使用jdk8-152+版本presto单独使用数据库vi launcherexport JAVA_HOME=/usr/local/java/jdk1.8.0_171export PATH=$JAVA_HOME:$PATH
2022-05-24 23:56:20
626
2
原创 kettle将文件存储为orc或者parquet
以下是在kettle8.3版本进行测试的。在kettle9.2版本,无法使用组件Windows本地得配置Windows-Hadoop的环境变量orc设置orc output的压缩方式,下面是设置的snappy压缩可以不设置。有个bug是,orc无法设置字段的编码。如果有中文数据,则会显示乱码parquet,可以设置UTF8设置压缩方式......
2022-05-24 23:49:19
1145
原创 ClickHouse命令行中执行多行的一句sql
在 clickhouse 中执行很长的一句 SQL 的时候,默认无法换行,否则就会报错。但是如果在启动命令行的时候,加上一个参数 -m ,便可以轻松的解决这个问题启动的时候,在后面加一个 -m即可clickhouse-client --host=localhost --port=9900 -m...
2022-05-23 23:06:30
1388
原创 neosemantics的bug汇总
以下的 neosemantics 版本默认都是指的 4.0 以上的。1、导入后,label 前总是显示 ns0__需要给导入命令增加: {handleVocabUris: "IGNORE"}CALL semantics.importRDF('/NLP/KG/Wikidata/other/xxx.rdf', 'Turtle',{handleVocabUris: "IGNORE"})2、4.4版本的 Noe4j 依赖的是 jdk11,否则会报下面的错警告: ERROR! Neo4j cannot b
2022-05-23 22:33:17
1279
8
原创 Neo4j导入RDF文件之neosemantics安装
一、背景众所周知,Neo4j 本身是不支持导入 RDF 文件的。但我们可以借助 neosemantics 来进行导入。neosemantics 简称 n10s ,4.0之前的把呢不能叫 semantics 。现在官网也无法访问 4.0 之前版本的相关文档了。推荐大家使用4.0以上的。二、安装插件1、下载 neosemantics ,我下载的是 neosemantics-4.1.0.1.jar下载地址1下载地址22、复制 neosemantics-4.1.0.1.jar 到 neo4j 的安
2022-05-23 22:25:02
5056
10
原创 docker的基本操作指令
1、启动 dockersystemctl start docker2、关闭 dockersystemctl stop docker3、查看 docker 中存在的镜像docker images4、查看 docker 中启动的容器docker ps5、启动容器docker run -d -p 8080:8080 docker.io/yanxiaofei/webspoon:latest(image)或者:docker run -d -p 8080:8080 926d8db4881
2022-05-23 21:36:19
187
原创 Tomcat安装与配置Apache Tomcat Native Library(Linux)
1、安装 apr, opensslyum install apr-devel openssl-devel
2022-05-22 11:42:13
3207
原创 SQL面试题型汇总
第一种:构建表结构面试官会给你一个业务场景,你认为需要建几张表,每张表的结构字段是什么,表跟表之间的关联关系是什么?这种问题他主要考察你对于业务的理解,构建表结构的一个能力。最基本的局部建表,包括外建、主建等等。第二种:多表联查给你几张表,让你进行复杂查询的实现。这个主要针对多表多列字段进行嵌套,子查询等。第三种:窗口函数主要有三种,聚合开窗函数、排序开窗函数、同列错位开窗函数。聚合开窗函数:函数名如果是聚合函数,则成为聚合开窗函数语法:聚合函数(列) over(partition by
2022-05-17 10:42:29
157
原创 SQL子句逻辑执行顺序
SQL子句逻辑执行顺序:From → Where → Group by → Having → Select → Distinct → Union → Order by
2022-05-17 10:39:25
118
原创 Python、Java连接Neo4j,并执行命令
Python 所需的wheel:pip install neo4jpip install neo4j-driverPython 代码如下:import pickleimport neo4jfrom neo4j import GraphDatabase# 连接neo4j,运行命令user = 'neo4j'password = 'root'driver = GraphDatabase.driver(uri='bolt://localhost:7687', auth=(user, pa
2022-05-16 19:14:39
254
原创 Python对字符串编码与解码
from urllib.parse import quote, unquote# 修改字符串编码text = "http://zhishi.me/zhwiki/resource/%E5%90%95%E9%BE%99%E5%85%89"# print(unquote(""""\u897f\u683c\u8bfa\u745e\u4e9a\u516c\u5bd3\u9152\u5e97" ."""))print(text.encode('raw_unicode_escape').decode())
2022-05-16 14:21:27
472
原创 大数据之ELT
ETL 和 ELT 有很多共同点,从本质上讲,每种集成方法都可以将数据从源端抽取到数据仓库中,两者的区别在于数据在哪里进行转换。ELT的工作原理与 ETL 不同,ELT是从多个数据源收集信息,将其加载到数据仓库(或者数据湖)中,然后将其转换为可操作的商业智能的过程。抽取——在ELT和ETL两种数据管理方法中的原理相似。一般我们会采用增量抽取,对于一些维表数据量比较小的也会采用全量抽取。加载——这是 ELT 和 ETL 开始不同的地方了。ELT 不是在抽取大量原始数据的过程中将其转换,而是将所有数据都
2022-05-15 19:02:58
399
原创 JDBC和ODBC之间的区别与联系
JDBC 和 ODBC 都是 API (应用程序编程接口),它帮助客户端的应用程序访问服务器端的数据库。下面本篇文章就来认识一下 JDBC 和 ODBC ,简单介绍一下它们之间的区别,希望对大家有所帮助。JDBC 是什么?JDBC 表示 Java 数据库连接,是一种应用程序编程接口,即 API 。 JDBC 是作为 Java 开发工具包(JDK)1.1的一部分发布的。它是建立在 ODBC 的基础上的,因此,在 JDBC 中保留了一些 ODBC 的基础知识。JDBC 是任何 Java 应用程序和不同数据
2022-05-14 23:36:47
1022
原创 OLTP、OLAP、即席查询(ad hoc query)区别与联系
对于目前来讲,对数据的处理主要集中在两个方面,一种是联机事务处理 OLTP(on-line transaction processing),另一种是联机分析处理 OLAP(On-Line Analytical Processing)。OLTP:是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,典型的是银行 ATM 存取款,金融证券方面的实时更新等,这些操作都比较简单,主要是对数据库中的数据进行 DML 操作,操作主体一般是产品的用户,并且 OLTP 事务性非常高,一般都是高可用的在线系统,如上
2022-05-14 23:07:17
1754
原创 Pandas DataFrame 获取index名、列名、行数、列数
获取列名: df.columns.values获取 index 名: df.index.values获取行数: df.shape[0]获取列数: :df.shape[1]获取具体的某一个值: df.iloc[i, j]import pandas as pd# 获Pandas DataFrame 获取index和列名data = {'id': [4, 6, 5], 'name': ['张三', '李四', '王五'], 'age': [20, 21, 20], 'school
2022-05-13 14:26:56
9423
原创 国内Neoo4j下载地址
Neo4j官网下载的很慢,还得用户登陆。现在推荐一个国内Neoo4j下载地址:https://we-yun.com/blog/prod-56.html
2022-05-06 11:34:11
682
原创 hive修复表数据
对于外部表,删除表结构之后。再次新建表,需要使用 load 命令来导入数据,如果待 load 的文件太多,得 load 多次,很麻烦。这个时候,我们可以使用下面的命令。mack repair table tablename;
2022-04-17 21:55:23
1755
原创 cesium中轨道六根数的参数命名
cesium中轨道六根数的参数命名:Semimajor Axis(SMA) 半长轴Eccentricity(Ecce) 偏心率Inclination(Incl) 轨道倾角Argument of Perigee(Argg) 近地点幅角Right Ascension of Ascending Node(RAAN) 升交点赤经True Anomaly(True) 真近点角Mean Anomaly(Mean) 平近点角参考地址1参考地址2...
2022-04-11 09:25:06
1186
原创 使用Shell指令给MySQL创建用户
mysql -uroot -p123456 -e "create user '用户名'@'localhost' identified by '用户的密码'"mysql -uroot -p123456 -e "drop user 'aaa'@'localhost'"mysql -uroot -p123456 test -e "select now()" -N > /tmp/aa.txthttps://www.cnblogs.com/feiyun8616/p/11584293.html...
2022-02-11 16:12:36
1283
原创 Nexus的jar包存储路径
我安装的 Nexus 版本是 nexus-3.20.1 ,并安装在 /opt 目录下。其配置文件是 /opt/nexus-3.20.1-01/etc/nexus-default.properties 。里面有一项 nexus-context-path=/ 就是指的 jar 包的存放路径。因为安装的时候,我没有更改这一项,所以 jar 包的存放路径如下:/opt/sonatype-work/nexus3/blobs/default/content/...
2022-02-11 16:05:49
7378
原创 连接ClickHouse报错 Connection refuse
在使用代码连接 ClickHouse 的时候,遇到报错 Connection refuse ,有以下解决方式。方式一:关闭防火墙#停止firewallsystemctl stop firewalld.service#禁止firewall开机启动 systemctl disable firewalld.service方式二:修改配置文件 config.xml编辑配置文件 /etc/clickhouse-server/config.xml ,将第156行的注释打开<listen
2022-01-13 11:20:12
1993
原创 Java连接操作ClickHouse
ClickHouse 有两种 JDBC 驱动实现。两者间的主要区别如下:驱动类加载路径不同,分别为 ru.yandex.clickhouse.ClickHouseDriver 和 com.github.housepower.jdbc.ClickHouseDriver默认连接端口不同,分别为 8123 和 9000(但经过测试,却是相反的)连接协议不同,官方驱动使用 HTTP 协议,而三方驱动使用 TCP 协议方式一:官方驱动:pom 依赖只能使用 9000 端口<!--驱动为ru.y
2022-01-13 11:08:58
4990
原创 Doris 启动失败问题解决
1、报错:Frontend running as process 3868. Stop it first.解决方式:重复启动 fe 服务2、启动 be 报错palo_be: error while loading shared libraries: libbfd-2.30-system.so: cannot open shared object file: No such file or directory或者:backend[10001] got Exception: org.apach
2022-01-13 09:44:05
7503
1
原创 ClickHouse启动报错 Run under ‘sudo -u clickhouse‘
问题:使用命令clickhouse-server --config-file=/etc/clickhouse-server/config.xml启动 ClickHouse 的时候,会报下面的错误Effective user of the process (root) does not match the owner of the data (clickhouse)或者2022.01.13 00:32:46.999337 [ 3088 ] {} <Error> Application
2022-01-13 09:09:13
7368
原创 Centos7升级gcc版本
1、查看 gcc的信息1.1、查看 CentOS 的版本cat /etc/redhat-releaseCentOS Linux release <strong>7.6.1810</strong> (Core)1.2、查看 gcc 安装的位置which gcc/usr/bin/gcc1.3、查看 gcc 的版本gcc -vUsing built-in specs.COLLECT_GCC=gccCOLLECT_LTO_WRAPPER=/usr/libexe
2022-01-12 20:54:02
671
原创 使用Kettle循环处理数据(方式二)
接上文:使用Kettle循环处理数据(方式一),觉得流程比较繁琐,又琢磨到一种批量执行的方式。下面是批量执行的全转换流程。目的是统计某一个库中前缀相同的表的数据量。1、获取表名:可以批量将某一个数据库下的所有表获取到。2、过滤记录:过滤表名前缀是 nic_newtrack 的表3、公式:使用 公式 组件,将表名拼接到需要执行的 SQL 语句中公式 组件填写的详细信息:"insert into tablecount select '"&[tablename]&"',c
2021-12-10 15:05:34
2726
1
原创 Java操作Linux指令,实现恢复、备份MySQL数据库
备份数据库指令:mysqldump -h127.0.0.1 -uroot -p123456 test > d:/test.sql ---备份test数据库到 D 盘恢复数据库指令mysql -h127.0.0.1 -uroot -p123456 test< test.sql ---将D备份的数据库脚本,恢复到数据库中(数据库要存在!)在 cmd 或者 shell 调用命令行,其实是调用 MySQL 安装路径下面的 bin 目录下面的 msqldump.exe 和 mysql.exe
2021-12-10 14:17:27
2070
3
原创 MySQL批量统计数据库中的数据量
一、查询一个数据库中每张表的数据量:1、执行下面的SQL语句,是为了拼接一个查询语句select concat( 'select "', TABLE_name, '", count(*) from ', TABLE_SCHEMA, '.', TABLE_name, ' union all') from information_schema.tableswhere TABLE_SCHEMA='数据库名称';返回这样的结果:2、将返回的结果
2021-12-10 13:52:42
1580
原创 使用Kettle循环处理数据(方式一)
1、loop1_step1转换流程:详细配置如下:(1)“从结果获取记录”组件“字段名称”需要手动填写(2)“设置变量”组件:只有在点击“获取字段”时,变量名才会是大写的2、loop1_step2转换流程:详细配置如下:(1)“表输入”组件:(2)“表输出”组件3、loop1_job1作业流程:详细配置如下:(1)“转换”1组件:(2)“转换”2组件:4、loop1_step3转换流程:详细配置如下:(1)“Excel输入”组件:(2)“复制记录到结果”
2021-12-10 12:50:56
3914
2
原创 不打开Hive客户端,直接在终端执行Hive语句
直接在终端执行一条 hive sql 命令hive -e "sql语句"执行一个多条 hive sql 语句,将执行的语句放到一个文件中。这个文件的后缀名可以是: .txt 、 .sql 、 .log 、 .hqlhive -f 文件(里面是sql语句)当然也可以将执行的结果放到一个文件中,使用 >...
2021-11-08 14:11:44
1271
原创 Hive修改表结构
1.修改表名字alter table 表原来的名字 rename to 表新的名字; 2.查询表结构desc 表名字; 3.添加列alter table 表名字 add columns (列名字 列字段类型 comment '字段注释'); 4.更新列alter table 表名字 change column 列原来的名字 列的新名字 列的新字段类型 comment '字段注释'; 5.删除表drop table 表名字; 6.删除表部分分区alter table 表名字 d
2021-11-04 13:54:09
827
原创 MySQL存储过程中使用union
MySQL 中将 order by 和 union 结合使用的时候(先排序,再组合),此时 order by 后面必须加上 limit 才会有先排序再组合的效果。参考:MySQL中使用union和order by结合使用但是若这两个 SQL 子句使用同一个参数时,存储过程中的 union 会失效(不能只传入一个参数,在存储过程中使用多次)。经过多番测试,可以在存储过程传入两个一模一样的参数。这样问题就得到了解决。存储过程语句:delimiter $$create procedure my_pro
2021-11-04 09:53:51
445
原创 MySQL中使用union和order by结合使用
(select * from table_a order by a limit 100)union all(select * from table_b order by b limit 100)order by 和 union 结合使用的时候,尽量给需要union 的查询语句加上括号,在 Mysql 的参考手册中,并没有对union 和 order by 的优先级进行说明,它建议的方法是,对 SQL 语句加上(),这样能使 SQL 的语义更清晰。而且,如果是将排序后的结果union 的话,必须在
2021-11-04 09:35:25
337
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅