团子Yui-CSDN博客

原创 linux运行QQ方案

最早写的文章使用deepin-Wine在ubuntu下安装QQ,TIM,微信等软件因为ubuntu不稳定的原因已经弃用，后续使用微信\qq Docker此链接作为替代，但现在deepin-qq似乎是不更新新版本了（微信还能用）？只好选择别的替代品。如果单纯只是聊天，其实用QQ官网的linux版QQ也还可以，但我自己使用体验下来，一天能闪退个五六次，相当难受。

2023-02-10 16:13:07 1303 2

原创 Spark网格搜索——训练验证集拆分

Spark内的网格搜索主要有两种评估流程，分别是交叉验证和训练验证集拆分，这篇文章主要介绍训练验证集拆分的具体流程。

2022-11-21 14:21:34 1561 2

原创 grafana+echarts实现复杂图表可视化

clickhouse+grafana+echarts复杂图表快速可视化

2022-06-16 11:59:40 5057 3

原创 ClickHouse用户路径分析之桑基图

ClickHouse用户路径分析之桑基图

2022-06-08 16:40:56 5142 12

原创 ClickHouse利用WITH语句实现的参数式SQL

ClickHouse的WITH语句功能比较强大，with一般有四种用法WITH的使用方法1.使用常量作为"变量"eg:WITH '2019-08-01 15:23:00' as ts_upper_boundSELECT *FROM hitsWHERE EventDate = toDate(ts_upper_bound) AND EventTime <= ts_upper_bound;2.封装表达式eg:WITH sum(bytes) as exp_sum,form

2022-05-06 17:59:23 6220

原创 deepin-Wine问题收录

博文：使用deepin-Wine在ubuntu下安装QQ,TIM,微信等软件,以及deepin-wine的快捷键设置这篇博文自发布后有人陆陆续续遇到问题，然后私信给我。其实大部分的问题都收录在这位大佬的github中了zq1997/deepin-wine事实证明，人不咸鱼枉少年，谁又不是个懒癌患者呢，因此我这里会收录一些私信遇到的问题以及笔者复现出来的解决方法。常见问题：安装后没有图标傻瓜式解决办法：软链接启动脚本或者复制运行程序到桌面之前笔者安装的deepin-Wine版本较早，大部分的

2021-10-09 17:58:16 863

原创 Spark读ClickHouse——dbtable sql

spark读取clickhouse数据时存在着诸多限制如:不支持array数组类型的读取clickhouse存在着需要用final修饰的表clickhouse按照分区过滤……在不造轮子的情况下，可以用spark jdbc的一些骚操作实现clickhouse sql以下是sparksql jdbc获取数据结构的源码 /** * Get the SQL query that should be used to find if the given table exists. Diale

2021-09-23 17:57:58 1683 1

原创 Spark引用h2o框架,实施线上异常点检测——孤立森林模型(isolation forest)

Spark异常点检测算法——孤立森林模型异常检测的特性在生产中通常要进行异常数据检测，异常检测又被称为“离群点检测” (outlier detection),一般具有两个特性异常数据跟大部分样本数据不太一样异常数据在整体数据中的占比比重较小以用户行为的埋点为例，这类数据通常对于异常数据的界限没有一个明确的划分。因此SVM、逻辑回归等这类需要大量正向、负向样本的算法并不适用于上述情况。对于这类没有确定结果的数据来说，我们期望拥有一个无监督模型，根据样本间的相似性对样本集进行分类，从而检测出对应

2021-06-04 15:43:05 2033

原创 ClickHouse多路径存储策略

ClickHouse多路径存储策略要使用Clickhouse的多路径存储，需要ClickHouse的版本号在19.15之后。自ClickHouse 19.15开始，ClickHouse支持所有MergeTree表引擎多路径存储。多路径配置测试:配置文件信息,path:/etc/clickhouse-server/config.d/${xxxx}.xml配置信息也可写/etc/clickhouse-server/config.xml下需要注意的点1.若节点已部署clickhouse,因为c

2021-06-04 15:41:14 1042

原创 ClickHouse数据迁移工具之clickhouse-copier

ClickHouse数据迁移工具之clickhouse-copierclickhouse需要从单节点迁移至副本集群中,表结构统一修改为副本表网上搜到的迁移方式大致为三种。一、拷贝数据目录操作流程在源集群的硬盘上打包好对应数据库或表的 data 和 metadata 数据拷贝到目标集群对应的目录重启 clickhouse-server二、remote函数INSERT INTO <local_database>.<local_table>S

2021-05-17 15:36:44 4371

原创 ES用户验证

ES用户验证ES的五个内置用户五个内置用户：elastic super_userkibana_system 用户Kibana用来连接Elasticsearch并与之通信logstash_system Logstash用户在将监控信息存储在Elasticsearch中时使用beats_system Beats在Elasticsearch中存储监视信息时使用的用户**apm_system**APM服务器在Elasticsearch中存储监视信息时使用的用户remote_monitorin

2021-03-05 09:41:18 1521 1

原创 SparkSQL jdbc()写入流程分析

SparkSQL jdbc()写入流程分析导言在使用SparkSQL自带的jdbc()方法测试ClickHouse的写入性能时，jdbc()写入无法支持Array类型的数据写入。网上有人说不支持数组写入的原因是SparkSQL的jdbc()方法获取到的是statement连接，而不是preparedStatement连接，因此SparkSQL不支持Array类型的写入。抛开这个结论的正确性不谈，要想知道jdbc()不支持数组的原因，只要深入Spark的源码，应该就能找到答案了。因此笔者准备用两篇文章

2021-02-05 16:49:43 1411

原创 SparkML基于ALS,Kmeans实现用户聚类推荐

import spark.implicits._ //todo 使用als模型获取基于评分的用户\物品特征向量 //获取数据 val rating = spark.table("dw.dw_user_rating") .select($"gid", $"game_id", $"rating") //利用StringIndexer获取映射模型 val index_1 = new StringIndexer().setInputCol("gid").se.

2020-12-29 18:43:27 884

原创 Spark SQL 捕捉\过滤错误格式的数据

Spark在读取原始日志信息时，有时会遇到一些脏数据导致某些算子无法正常使用。过滤错误数据如果过滤掉脏数据对总体计算并没有多大影响的情况下，通常可以直接过滤掉错误格式的数据。val schema=spark.read.json(hdfsPath).schemaspark.read.schema(schema).option("mode", "DROPMALFORMED").json(hdfsPath)ex://原数据val origin_data="""{"a": 1, "b":2, "c"

2020-12-14 15:52:51 813

原创使用deepin-Wine在ubuntu下安装QQ,TIM,微信等软件,以及deepin-wine的快捷键设置

使用deepin-Wine在ubuntu下安装QQ,TIM,微信等软件、deepin-wine的快捷键设置先贴github地址：zq1997/deepin-wine非常感谢大佬的整合，安装方法已经写在readme中，但想到各位懒癌晚期的患者们可能连链接都懒得点，便将安装方法复制了过来笔者使用的系统为ubuntu 20.041.首次使用时，先将移植仓库添加到系统中wget -O- https://deepin-wine.i-m.dev/setup.sh | sh2.应用安装

2020-09-30 17:12:05 5781 1

原创 spark任务结束时timeout问题

先上错误图这个错误是由一个临时导出需求产生的，任务需要读取两个大表进行join操作，所以耗费的时间也比较多，在Spark任务结束时产生了上图的异常。这个任务其实在底层已经成功运行并输出结果了，且任务结果文件已经成功写入到HDFS中，再加上日志的警告部分提示的是ShutdownHook timeout，初步判断是Hadoop的ShutdownHookManager在任务结束时关闭钩子时执行FutureTask的get方法时产生了timeout异常。不排除是Spark的原因，根据网上所说将spark的n

2020-09-23 14:15:05 2045 2