麻辣香蕉-CSDN博客

原创 clickhouse数据手动迁移

1、需要拷贝文件#### a、全部迁移：/var/lib/clickhouse/data/var/lib/clickhouse/metadata#### b、迁移单表：/var/lib/clickhouse/data/pangu/tablename/var/lib/clickhouse/metadata/pangu/tablename.sql2、拷贝到新机器目录，注意两个文件，不要忘了metadata#备份新机器原本的data和metadata/var/lib/clickhous

2022-01-28 14:34:34 2622

原创 mysql、clickhouse读写分离性能测试

背景：直接用clickhosue处理，每次更新有1秒的延迟（目前提交机制1秒或者1000条提交一次）；clickhouse支持导入mysql数据，也支持统计查询mysql数据；所以测试评估一下mysql直接统计查询、使用clickhouse统计查询mysql数据、直接使用clickhouse查询统计的性能对比；1、导入测试数据100w插入性能：mysql-> 300/s；2核、16g内存 Clickhouse-> 20000/s；2核...

2022-01-28 11:13:02 1795

原创 Webserver内存溢出分析

1、监控内存使用率jps -l 查找webserver进程号#监控内存使用情况jmap -heap 91110 2、生成dump文件jmap -dump:format=b,file=heap.prof pid3、将dump文件拷贝出来，使用mat打开能够清晰定位cpu、内存占用较大模块4、定位模块啦，接下来就是愉快的优化代码啦...

2022-01-28 11:03:00 604

原创安装memory analyzer

1、下载Eclipse Memory Analyzer Open Source Project | The Eclipse Foundation或者百度网盘：链接：https://pan.baidu.com/s/19S9fCZ9My8VrKpMe41lxlg提取码：aidl2、解压3、启动4、注意Mat1.12版本需要java11以上，本地可以配置多个jdk...

2022-01-27 17:22:25 1333

原创 clickhouse常用sql

1、慢查询监控SELECT user, formatDateTime(query_start_time, '%Y%m%d %T') AS start_time, query_duration_ms / 1000 AS query_duration_s, query, memory_usage / 1024 / 1024 / 1024 AS memory_usage_g, result_rows , formatReadableSize(resu

2021-10-21 18:56:07 1521

原创按字段顺序加载或解析JSON对象

1、保证json对象按put顺序加载属性// 保证json对象按字段顺序putJSONObject jsonObject = new JSONObject(true);原理：2、字符串解析json对象字段有序JSONObject jsonObject = JSONObject.parseObject(jsonString, Feature.OrderedField);...

2021-10-20 15:15:15 527

原创 mysql实时物化到clickhouse（MaterializeMySQL）

Creates ClickHouse database with all the tables existing in MySQL, and all the data in those tables.ClickHouse server works as MySQL replica. It reads binlog and performs DDL and DML queries.This feature is experimental.使用 MySQL 中存在的所有表以及这些表中的所有数据创建.

2021-07-14 18:53:34 725

原创 linux安装包安装mysql5.7

1、下载https://dev.mysql.com/downloads/mysql/5.7.html#downloads2、本地环境配置yum install libaiogroupadd mysqluseradd -r -g mysql mysql3、解压移动tar -zxvf mysql-5.7.33-linux-glibc2.12-x86_64.tar.gzmv mysql-5.7.33-linux-glibc2.12-x86_64 /usr/local/mysql

2021-07-14 18:14:48 682

原创 syslog数据接收并处理

导包： <dependency> <groupId>org.graylog2</groupId> <artifactId>syslog4j</artifactId> <version>0.9.60</version> </dependency>重写接收处理器：

2021-06-30 11:42:00 1717

原创 Mac下安装MariaDB(自用备忘)

1、下载MariaDB 10.2.6稳定版（免费），选择版本时选择MAC .pkg版本：https://downloads.mariadb.org/mariadb/10.2.6/2、官网安装说明：https://mariadb.com/kb/en/mariadb/installing-mariadb-server-pkg-packages-on-macos/3、安装完后，默认的用户名是root，密码为空，但是用远程工具（譬如Navicat）远程连接时不能用root用户连接，必须新建用户；

2021-06-24 14:21:24 1806

原创 ES批量提交-RestHighLevelClient

引包： <dependency> <groupId>org.elasticsearch.client</groupId> <artifactId>elasticsearch-rest-high-level-client</artifactId> <version>6.8.13</version>

2021-06-21 18:11:03 2235

原创 java异步执行任务

java异步执行可以使用线程，或者第三方消息中间件，如mq；线程池的使用：ThreadPoolExecutor es = new ThreadPoolExecutor(50, 50, 0L, TimeUnit.SECONDS, new LinkedBlockingQueue<Runnable>(), new ThreadFactory() { @Override public Thread newThread(Runnable r) {

2021-06-21 12:16:32 4374 1

原创 Ehcache存储策略总结

如何使用

2021-06-20 13:02:14 770

原创 es创建索引库，无法使用InetSocketTransportAddress

6.8版本以上不在支持InetSocketTransportAddress，huan cheng

2021-06-18 17:35:09 592

原创 Mac中Idea 切换不同项目快捷键

command + `这个快捷键可以快速切换同一个软件中不同的窗口，比鼠标操作更快，比如Chrome 浏览器，每个用户都有自己的窗口，按 command + ` 能就能快速切换。Idea / Pycharm / PHPStorm / Android studio 等，每个项目都有一个独立的窗口，用 command + ` 同样能快速切换。...

2021-05-18 18:20:17 4683 5

原创 python3安装步骤

1. 安装依赖环境# yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel2.下载Python3https://www.python.org/downloads/# wget https://www.python.org/ftp/python/3.6.1/Pyt

2020-12-17 16:48:49 383 1

原创 redis安装步骤

安装redis：1、下载安装包2、安装gcc等编译工具yum -y install gcc gcc-c++ automake pcre pcre-devel zlib zlib-devel open openssl-devel3、解压#tar -xvf redis-3.0.4.tar.gz4、进入解压目录# cd redis-3.0.4/deps5、编译# make hiredis lua jemalloc linenois# make geohash-int# cd ..# ma.

2020-12-15 16:21:38 204

原创 nginx安装步骤

Nginx 的官方下载地址为：http://nginx.org/en/download.html。稳定版本Stable version1、准备工作、安装工具yum -y install gcc gcc-c++ automake pcre pcre-devel zlib zlib-devel open openssl-devel2、解压tar -xvf nginx-1.6.3.tar.gzcd nginx-1.6.33、将当前工作路径定位到/app/nginx/nginx-1.6.3.

2020-12-15 16:20:33 177

原创 nacos安装步骤

安装nacos1、下载安装包2、解压即可3、创建数据库，导入/nacos/conf/nacos-mysql.sql4、修改/nacos/conf/application.properties 可修改端口添加数据库信息 spring.datasource.platform=mysql db.num=1 db.url.0=jdbc:mysql://192.168.0.238:3306/nacos?characterEncoding=utf8&con...

2020-12-15 16:19:25 858

原创 mysql5.7安装步骤

1、安装mysql查看原本mysql相关包# rpm -qa|grep mysql# ps -ef | grep mysql# service mysqld stop# rpm -e mysql-libs --nodeps# yum -y remove mysql mysql-*安装common rpm安装lib rpm安装client rpm安装serer rpm安装devel rpm2、启动,第一遍启动不成功就在启动几遍，三遍不成功查看启动日志 s...

2020-12-15 16:08:17 171

原创 kibana安装步骤

1、下载kibanahttps://www.elastic.co/cn/downloads/past-releases#kibana2、安装tar -zxvf kibana-5.2.2-linux-x86_64.tar.gz3、修改配置文件cd kibana-5.2.2-linux-x86_64/configvim kibana.yml server.host: "192.168.0.238" elasticsearch.url: "http://192.168.0.23...

2020-12-15 16:05:11 254

原创梳理各算法基础应用及场景

knn： import numpy as np from sklearn.neighbors import KNeighborsClassifier X = np.array([[1, 1], [1, 1.5], [2, 2], [4, 3], [4, 4]]) y = np.array(['A', 'A', 'A', 'B', 'B']) knn = KNeighborsClassifier(n_neighbors=3) # 训练模型 knn.f...

2020-12-15 15:39:55 311

原创 mysql分区-索引

mysql分区mysql索引1、添加索引CREATE INDEX index_name ON my_table(column_name);2、根据索引查询具体查询：SELECT * FROM table_name WHERE column_1=column_2;(为column_1建立了索引)或者模糊查询SELECT * FROM table_name WHERE column_1 LIKE '%三'SELECT * FROM table_name WHERE column_1 L.

2020-12-15 15:37:13 1498

原创 linux添加、修改环境变量

1.In shell： setenv <path_to_append>： $ENVNAME　　setenv PATH /etc/apache/bin:$PATH为了优先使用新加的路径,把新加路径放在原$PATH前面.单独查看PATH环境变量，可用：[root@localhost u-boot-sh4]#echo $PATH/usr/kerberos/sbin:/usr/kerberos/bin:/usr/local/sbin:/usr/local/bin:/sbin:/bin:/

2020-12-15 15:36:11 1641

原创 java使用keystore认证过程（license认证）

1、生成公钥和私钥文件、并保留privateKeys.store和publicCerts.store文件 1）keytool -genkeypair -keysize 1024 -validity 3650 -alias "privateKey" -keystore "privateKeys.store" -storepass "123456" -keypass "123456" -dname "CN=localhost, OU=localhost, O=localhost, L=SH, ST=SH...

2020-12-15 15:31:04 1551

原创记一次httpclient调用失败

一、代码有点问题，但是请求能通过HttpPost httpPost = new HttpPost("http://192.168.11.11/login.html");httpPost.addHeader("Content-Type", "application/x-www-form-urlencoded;charset=UTF-8");httpPost.addHeader("Referer","https://192.168.3.1/login.html");Map<String, .

2020-11-10 11:20:40 924

原创 sparkmllib scala GBDT Demo

定义 GBDT(Gradient Boosting Decision Tree)是一种迭代的决策树算法，由多棵决策树组成，所有树的结论累加起来作为最终答案。GBDT是boosting算法的一种，按照boosting的思想，在GBDT算法的每一步，用一棵决策树去拟合当前学习器的残差，获得一个新的弱学习器。将这每一步的决策树组合起来，就得到了一个强学习器。 GBDT 无论用于分类还是回归一直都是使用的CART 回归树。不会因为我们所选择的任务是分类任务就选用分类树，这里面的核心是因为gbd...

2020-09-08 14:55:25 226

原创 sparkmllib scala NaiveBayes Demo

定义贝叶斯方法贝叶斯方法是以贝叶斯原理为基础，使用概率统计的知识对样本数据集进行分类。由于其有着坚实的数学基础，贝叶斯分类算法的误判率是很低的。贝叶斯方法的特点是结合先验概率和后验概率，即避免了只使用先验概率的主观偏见，也避免了单独使用样本信息的过拟合现象。贝叶斯分类算法在数据集较大的情况下表现出较高的准确率，同时算法本身也比较简单。朴素贝叶斯算法朴素贝叶斯算法（Naive Bayesian algorithm) 是应用最为广泛的分类算法之一。朴素贝叶斯方法是在贝叶斯算法的基础上进行.

2020-08-18 17:12:36 185

原创 Sparkmllib scala KMEANS demo

定义：聚类是一个将数据集中在某些方面相似的数据成员进行分类组织的过程，聚类就是一种发现这种内在结构的技术，聚类技术经常被称为无监督学习。k均值聚类是最著名的划分聚类算法，由于简洁和效率使得他成为所有聚类算法中最广泛使用的。给定一个数据点集合和需要的聚类数目k，k由用户指定，k均值算法根据某个距离函数反复把数据分入k个聚类中。数据源准备：0.0 0.0 0.00.1 0.1 0.10.2 0.2 0.29.0 9.0 9.09.1 9.1 9.19.2 9.2 9.20...

2020-08-17 10:41:46 368

原创 Sparkmllib scala svm demo

简介：支持向量机（Support Vector Machine, SVM）是一类按监督学习（supervised learning）方式对数据进行二元分类的广义线性分类器（generalized linear classifier），其决策边界是对学习样本求解的最大边距超平面（maximum-margin hyperplane）。SVM使用铰链损失函数（hinge loss）计算经验风险（empirical risk）并在求解系统中加入了正则化项以优化结构风险（structural risk），.

2020-07-28 10:55:42 465

原创 Sparkmllib scala逻辑回归

logistic回归又称logistic回归分析，是一种广义的线性回归分析模型，常用于数据挖掘，疾病自动诊断，经济预测等领域。例如，探讨引发疾病的危险因素，并根据危险因素预测疾病发生的概率等。以胃癌病情分析为例，选择两组人群，一组是胃癌组，一组是非胃癌组，两组人群必定具有不同的体征与生活方式等。因此因变量就为是否胃癌，值为“是”或“否”，自变量就可以包括很多了，如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的，也可以是分类的。然后通过logistic回归分析，可以得到自变量的权重，从而可以大.

2020-06-28 14:17:33 733

原创 Unrecognized Hadoop major version number: 3.0.0-cdh6.3.2

spark任务提交cdh集群yarn模式执行报错：Exception in thread "main" java.lang.ExceptionInInitializerError at org.apache.hadoop.hive.conf.HiveConf.<clinit>(HiveConf.java:105) at java.lang.Class.forName0(Native Method) at java.lang.Class.forName(Class.j...

2020-06-22 16:50:13 4520 4

原创 scala Spark 读取hive数据

import org.apache.spark.SparkConfimport org.apache.spark.sql.{DataFrame, SparkSession}object SparkOperaterHive { def main(args: Array[String]) { val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName(SparkOperaterHive.getCla.

2020-06-19 11:28:01 1738

原创 Sparkmllib scala线性回归

在统计学中，线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。（这反过来又应当由多个相关的因变量预测的多元线性回归区别，而不是一个单一的标量变量。）在线性回归中，数据使用线性预测函数来建模，并且未知的模型参数也是通过数据来估计。这些模型被叫做线性模型。最常用的线性回归建模是给定X值的y的条件均.

2020-06-19 09:58:15 1349

spark-md5.min.js

配置网络yum源rpm包

空空如也