半条小咸鱼-CSDN博客

原创 Mac pycharm运行文件左下角提示error=2, No such file or director

背景：系统：MAC系统问题：pycharm运行别人提供的python项目，项目中文件存在，却提示没有此文件具体错误：Error:Cannot run program “/Users/bob/PycharmProjects/untitled/venv/bin/python” (in directory “/Users/bob/Desktop/1”): error=2, No such file or director解决方案：删除项目下隐藏的.idea文件，重新启动pycharm，重新运行就好啦

2021-10-12 09:25:46 1754 2

原创 SpringBoot中自定义拦截器 (Token校验与放行、反馈前端)

简介后端框架：springboot数据库：clickhouse本系统是针对大数据进行分析的可视化系统，涉及到接口访问过程中token的校验与放行等问题，本文解决两个问题：1、token校验，具体思路为：如果接口不带token数据&该接口为登录接口，放行，将token和token过期时间存入数据库；如果接口不带token数据&该接口为登录接口，拦截，提示”未登录或token过期“如果接口带token数据，数据库中查询该token过期时间，如果当前系统时间没有超过token过期时

2021-07-10 19:44:16 2941

原创 spark jdbc读取并发度优化 GC overhead

背景spark 读取mysql数据库表中数据表，数据体量五百万条代码： String url = "jdbc:mysql://localhost:3306/demo?useSSL=true&characterEncoding=utf-8&serverTimezone=UTC"; // 查找的表名 String table = "test"; // mysql 增加数据库的用户名(user)密码(password),指定test数据库的驱动(driver) Proper

2021-06-30 22:29:37 589 2

原创 HBase 历史数据导入时间戳设置问题

【问题描述】有一批历史数据需要导入HBase，在写HBase时时间戳默认是系统当前时间，由于需要根据时间戳查询数据，所以需要将时间戳设置为数据产生时间，而不是当前时间。【解决方案】1、数据插入addColumn时，添加一列long类型的时间戳即可2、数据查询注意：这里的时间范围左闭右开...

2021-04-26 15:15:37 1517

原创 clickhouse建表语句

import java.sql.Connection;import java.sql.DriverManager;import java.sql.ResultSet;import java.sql.SQLException;import java.sql.Statement;public class Demo { public static void main(String[] args) { Connection connection = null; try { Class.f

2021-04-14 10:14:25 3147

原创 spark数据写入clickhouse mergeTree引擎数据重复问题

最近在用clickhouse，用spark对数据分析完批量导入clickhouse之后发现数据被插入了很多遍，查找了很多资料，发现问题：1、表引擎应该采用ReplacingMergeTree2、需要手动进行merge，执行语句optimize table replacing_test;ReplacingMergeTree介绍数据去重原理ReplacingMergeTree通过ORDER BY，表示判断唯一约束的条件。当分区合并之时，根据ORDER BY排序后，相邻重复的数据会被排除

2021-04-14 10:09:15 1849

原创 Ubuntu 16.04.6LTS安装clickhouse 亲测

1.sudo apt-get install apt-transport-https ca-certificates dirmngr2.sudo apt-key adv —keyserver hkp://keyserver.ubuntu.com:80 —recv E0C56BD43.echo “deb https://repo.clickhouse.tech/deb/stable/ main/“ | sudo tee /etc/apt/sources.list.d/clickhouse.list4.

2021-03-22 08:50:13 199

原创命名体识别 python Stanford CoreNLP

简介StanfordCoreNLP 是斯坦福大学发布的 NLP 处理工具，StanfordCoreNLP 的源码使用 Java 编写，目前 Python 可以用两种方法进行调用，一种是使用 StanfordCoreNLP 库，是对 StanfordCoreNLP 进行了 Python 封装。而另一种方法是直接使用 Stanford 官方发布的 Python 版本 StanfordNLP。这里介绍第一种方式。Stanford CoreNLP安装方法（1）下载stanford CoreNLP 相关文件，需

2021-03-15 10:24:15 290

原创 Geomesa 无法根据空间和时间范围进行结果查询

参考文档：http://www.likecs.com/show-25072.html问题描述自己写的Java客户端代码，利用Geomesa服务提供的filter根据空间范围BBox和时间范围进行During查不到结果解决方案

2020-08-13 16:59:12 293

原创 hbase import数据 retrying connect to server解决方案

采用hbase org.apache.hadoop.hbase.mapreduce.Driver import test /etc/test语句像hbase中写入数据时，要注意两点：1、启动nameNode、dataNode、yarn、historyserver；2、导数据之前先在hbase中创建表。问题描述采用hbase org.apache.hadoop.hbase.mapreduce.Driver import test /etc/test语句向hbase写入数据时，报错信息为：2020-07-

2020-07-07 00:04:12 1007

原创 linux下rar包的解压方法

队友给提供了rar压缩包，需要在服务器（64位centos系统）下解压，亲测可用。一、下载并安装rar软件1、下载wget http://www.rarlab.com/rar/rarlinux-x64-5.3.0.tar.gz2、安装tar xvf rarlinux-x64-5.3.0.tar.gzcd rarmake install3、命令将/etc 目录压缩为etc.rar 命令为：rar a etc.rar /etc将/etc 目录压缩为etc.rar 命令为：rar x et

2020-07-06 23:43:33 925

原创 CDH安装Spark2

前言我们采用的cdh版本是5.16.1，对应的spark版本是1.6.0，由于项目需要使用使用Spark的版本是2.1.0，所以进行了Spark的升级。实现过程1、下载文件1）jar文件下载路径：http://archive.cloudera.com/spark2/csd/SPARK2_ON_YARN-2.1.0.cloudera4.jar2）manifest.json文件下载路径：http://archive.cloudera.com/spark2/parcels/2.1.0.cloud

2020-07-03 00:00:19 901

原创启动hadoop进程提示ssh localhost port 22 Connection refused

hadoop配置完成，用start-all.sh启动时提示错误：localhost: ssh: connect to host localhost port 22: Connection refused【错误原因】分析：由于在生产环境下，ssh的端口被修改成220，不是使用的默认端口，但是hadoop在启动相应进程的时候，使用的ssh默认端口。【解决问题过程】1、网上大部分原因是未安装ssh造成的，采用ps -e|grep ssh命令查看，发现服务器上已经安装ssh。2、ssh localhost

2020-07-02 23:59:23 6954 3

subian1261的博客