自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据,开发和AI的专栏

编写有价值的内容

  • 博客(50)
  • 收藏
  • 关注

原创 【GO】如何用 Golang 的 os/exec 执行 pipe 替换文件

主要记录一下怎么用 Golang 的 os/exec 去执行一个 cmd 的 pipeline,就是拿 cmdA 的输出作为 cmdB 的输入。

2024-01-05 17:34:10 672 1

原创 【Apache Pinot】Data upload jobtype 粗略分析

实时数据和离线数据都存储在 pinot 数据库中,离线数据需要通过脚本去生成对应的数据上传到数据库里面,但是其中 config 中有个 jobtype 让人有点迷惑,本文简单的做一个概念的整理

2023-12-12 20:14:25 354

原创 【网络】简单聊一下 TIME_WAIT

记录 TCP 里四次挥手之后的 Timewait 基本概念

2023-12-08 23:38:55 98

原创 【Apache Pinot】简单聊聊前面没讲的 Deep Store 和 Cluster

这四篇文章已经基本让我们了解 Apache Pinot 内部的组件是什么,功能篇基本都写完。

2023-06-11 14:05:22 642

原创 【Apache Pinot】浅析 Pinot 的 Table,Index 和 Tenant 原理

不得不说,Pinot 在添加字段,迁移数据的时候体感很好,上层不会有很明显的感知,这块是我用起来比较舒服的点。简单总结一下上面三个问题的解决方法。如果需要减少或者变更字段,那么建议删表重建如果是表数据不多,由于其他业务影响则做资源隔离如果数据很大,则思考场景是做预聚合还是增加索引另外我不想在一篇文章写的太多,让人感觉到内容太多反而不了解他们是什么,尽量一个文章只讲一块逻辑。

2023-06-09 20:03:22 821

原创 【Apache Pinot】探究 Pinot 中存储模型的设计逻辑和 Segment 详解

Table,Tenant 就暂时不在这讲解了,放到下一章,因为设计到的内容还是比较多,有实时表,离线表,混合表,索引这块,基本是围绕 Table 来做的。

2023-06-08 18:29:18 731

原创 【Apache Pinot】Controller、Broker 和 Server 的概念和工作流程

Apache Pinot 中 Controller,Server 和 Broker 概念和工作流程

2023-06-07 19:39:06 795

原创 天池性能挑战赛-高性能分析型查询引擎复赛12名赛后方案分享

本人以初赛Rank17,复赛Rank12的成绩结束了这次比赛。本文主要讲述复赛的关注点和优化点。不会扩展去讨论做过的尝试,有兴趣的小伙伴可以交流。赛题介绍比赛链接在这,对详细内容有兴趣的小伙伴可以去看看。大体就是在PMEM这个介质上面实现load和quantile函数,load函数是让参赛者在这个函数里面做加载数据去写自己想要的数据,quantile函数将列的所有值排序后,返回第 N * p 个值。如果 N * p 不为整数,则向上取整。样例:column = [1, 2, 3, 4,.

2021-08-26 00:47:37 229

原创 Redis脉络脑图整理

不是很全面,欢迎补充和提评论修正整理一下Redis的脑图,方便后续深挖背后的逻辑

2020-08-08 00:49:35 143 1

原创 【消息队列】消息队列笔记

消息队列总结以下内容参考敖丙大大的文章消息队列是什么?消息队列:消息队列就是一个使用队列来通信的组件。消息队列基本模型队列队列是FIFO,消息会统一发送到队列中,通过后面的服务来做一些消费。优势:简单,适合一些比较trick的场景,不需要做很多边界逻辑来兼容一些case,比如消费过多或者发布过多 导致一些管理的问题。发布/订阅类似producers和consumers,一方负责生产数据,一方负责消费.消息有序性消息的顺序

2020-08-07 00:42:25 176

原创 【LeetCode】链表数据整理

两数相加func sum(l1, l2 *ListNode) *ListNode { if li == nil && l2 == nil { return nil } dummy := new(ListNode) curr, value := dummy, 0 for l1 != nil || l2!= nil || value > 0 { curr.Next = new(ListNode)

2020-08-04 01:12:03 72

原创 【LeetCode】数组解法整理收集

二分查找func findMagicIndex(nums []int) int { lu := len(nums) if lu == 0 { return -1 } l, r := 0, lu - 1 return f(nums, l, r)}func f(nums[]int, l, r int) int { if l > r { return - 1 } mid := l + (r - l)/2

2020-08-02 23:11:08 87

原创 【LeetCode】二叉树解法收集整理

用于复习整理编辑:2020年08月02日在树结构里面判断是否有子节点type ListNode struct { Next *ListNode Val int}type TreeNode struct { Left *TreeNode Right *TreeNode Val int}func isSubPath(head *ListNode, root *TreeNode) bool { if head == nil { .

2020-08-02 23:08:39 79

原创 【数据库】【postgres】将docker部署的正在运行的单节点Postgresql调整为主从结构的Postgresql

文章目录背景环境(阿里云)&配置操作步骤简要描述主节点需要操作的步骤从节点需要操作的步骤背景现有一需求是将线上postgres从单节点提升到主从结构,网上所说方案大多都是从无到有的配置一个主从的pg数据库,对于运行中的pg扩展没有资料,所以本人在测试环境测通了一种方法,在此记录一下,给有类似需求的大兄弟们提供一些方便,可以结合自己的业务情况进行参考。环境(阿里云)&配置操...

2020-03-07 23:50:38 292

原创 [Golang] 指针类型和非指针类型的一个比较有意思的案例

从指针类型和非指针类型引发的一个比较有意思的案例前景提要:案例介绍总结前景提要:在用golang开发的时候难免会碰到并发的情况,要控制数据的一致性的时候就得用到锁这个对象。我定义的一个结构体里面声明sync.Map或者sync.Mutex。我发现可以直接用这个结构体里面的sync对象去lock。这是一个比较有意思的现象,我们知道如果nil去调用就会引发panic。这可能就涉及到一些指针和非指针...

2019-05-31 00:21:51 635

原创 [数据竞赛] 基于人工智能的分子筛选竞赛思路,a榜十一,b榜第十

任务: 2014年,一种未知的疾病在全球肆虐,让人类束手无策。致病蛋白质很多,它们的结构序列都藏在df_protein.csv 数据集中(Sequence特征)。经过科学家的不懈努力,能与这些致病蛋白相结合的小分子(df_molecule.csv中的Fingerprint特征表示了其结构)也被发现,并附上了它们的理化属性。此外,在df_affinity.csv数据集中,包含了蛋...

2018-05-27 21:27:34 1522 8

原创 微信自动跳转领支付宝红包JS实践

实践过之后,该代码只能在小游戏之前版本成功跳转,最新版本支付宝不会跳转自动领红包,如果失败的话请看看自己的版本,我在ios测试成功;)整个操作流程非常简单,这次我们主要就构建一个免费的服务器,并且把代码部署上去。腾讯云搭建,安装tomcat和jdk流程腾讯云的申请 申请好了之后,我们可以进入控制台的公网,本人选择的是Ubuntu系统,大家可以按照自己的需要去申请一个

2018-01-08 19:40:06 6013 3

原创 [机器学习] 聚类算法的轮廓系数,java实现

这次实现一个轮廓系数(wiki, baidu)。目的是为了评估聚类效果的好坏。我比较推荐大家观看wiki的说法,百度里面的有些说的不是很明白,比如百度百科中的这句话就很费劲 (计算 b(i) = min (i向量到所有非本身所在簇的点的平均距离))下面是wiki的轮廓系数的说明,大体说一下我的理解: a(i)是中心点到自己cluster中的平均距离。b(i)是中心点到其他c

2016-09-13 14:43:13 3723

原创 [spark] mllib决策树通过Strategy修改内存,java实现

java实现Strategy修改决策树的内存大小

2016-09-02 09:17:39 1055

原创 ROC曲线判别线性回归,java实现。

ROC曲线只能用来判断逻辑二元类的模型,如果线性方面的话得定阈值来判断。我自己写了个java小例子,考虑的不全。

2016-05-25 17:38:58 2817

转载 用Python开始机器学习(5:文本特征抽取与向量化)

在原文的基础上增加点笔记,stop_word的增加方法。

2015-11-16 16:40:54 866

原创 [工作] 用excel导出文件数据量和代码读取文件数据量不一样

前景提要: 客户发来starwar的文件,让我们对数据进行处理,注意好文件的前后顺序,然后对文件和文件之间进行de-duplication操作。

2015-11-13 14:34:22 631

原创 [Linux] awk命令笔记 入门

AWK是一门处理文本文件的语言。它把文件看作一串记录(record),缺省情况下一行即为一个记录。每一行又被拆成若干域(field)。我们可以把一行中的第一个词看作第一域,第二个词看作第二域,以此类推

2015-11-10 14:12:22 1802

原创 [机器学习] 看了一下KNN的介绍,那么动手做一个简单的例子

KNN分类算法 KNN是一种比较容易的分类算法,俗称K邻值算法,是一种挺容易理解监督式算法。

2015-11-06 16:24:16 2671

转载 开源机器学习工具scikit-learn入门

转自 开源机器学习工具scikit-learn入门

2015-11-03 16:03:08 515

原创 [Linux] grep命令笔记

grep命令

2015-10-29 14:25:28 385

原创 [Linux] Sed命令笔记

Sed是用来处理流字串的命令sed介绍:sed -- stream editor对文件或者某种输入字串进行处理。根据我使用sed和awk这两个命令,个人感觉sed是专门用来处理文本行的,awk的话可以对sed做不到的地方进行扩展,如果有错误的地方谢谢指正。sed语法结构:sed [-Ealn] command [file ...]sed [-Ealn] [-e command] [-f c

2015-10-27 14:34:12 380

原创 [Leetcode] [Database] Second Highest Salary解题

题目如下 Write a SQL query to get the second highest salary from the Employee table. Id Salary 1 100 2 200 3 300 For example, given the above Employee table, the second highest s

2015-10-19 14:13:00 334

原创 [Leetcode] [Database] Customers Who Never Order解题

题目如下 Suppose that a website contains two tables, the Customers table and the Orders table. Write a SQL query to find all customers who never order anything. Table: Customers. Id Name

2015-10-19 13:56:36 384

原创 [Leetcode] [Database] Consecutive Numbers

题目如下: Write a SQL query to find all numbers that appear at least three times consecutively. Id Num 1 1 2 1 3 1 4 2 5 1 6 2 7 2 For example, given the above Lo

2015-10-19 13:44:47 334

原创 [Leetcode] [Database] Duplicate Emails解题思路

重复邮件 Write a SQL query to find all duplicate emails in a table named Person. Id Email 1 [email protected] 2 [email protected] 3 [email protected] For example, your query should return the following for th

2015-10-19 13:37:47 363

原创 [Leetcode] [Database] Employees Earning More Than Their Managers解题笔记

题目如下 The Employee table holds all employees including their managers. Every employee has an Id, and there is also a column for the manager Id. Id Name Salary ManagerId 1 Joe 70000

2015-10-19 13:24:08 386

原创 [Leetcode] [Database] Trips and Users解题思路

用户旅行的题目如下 The Trips table holds all taxi trips. Each trip has a unique Id, while Client_Id and Driver_Id are both foreign keys to the Users_Id at the Users table. Status is an ENUM type of (‘complete

2015-10-19 13:13:39 1518

原创 [Leetcode] Word Frequency的笔记

单词出现的频率题目如下

2015-10-16 13:27:46 484

原创 [Leetcode] Valid Phone Numbers的笔记

Valid Phone Numbers题目如下,大体就是给的电话号码的格式只符合(xxx) xxx-xxxx or xxx-xxx-xxxx. (x为数字)

2015-10-16 11:18:52 1125

原创 [Leetcode] Tenth Line的笔记

发现leetcode上面有shell脚本的sql的题目,那么就做完他们来巩固一下学过的知识。题目如下

2015-10-16 09:53:29 320

原创 Linux的join命令

Join是将文件连接起来的一个命令Join - join lines of two files on a common field语法结构join [-i][-a<1或2>][-e<字符串>][-o<格式>][-t<字符>][-v<1或2>][-1<栏位>][-2<栏位>][--help][--version][文件1][文件2]join的参数列表 -a<1或2> 除了显示原来的输出内容之外,还

2015-10-15 17:41:48 2869

原创 Linux的Sort命令

Sort是一个命令,是用来对文件或者输入的内容进行排序sort - sort lines of text files语法结构sort [option] [file]order-sort的参数列表 -b –ignore-leading-blanks 忽略每行前面开始出的空格字符-d –dictionary 只考虑空和数字字母的排序-f –ignore-case 忽视大小写排序-g –gene

2015-10-15 16:23:25 639

原创 Linux命令TR

Linux命令TRtr介绍 tr - translate characters 是对sed功能的简略版,能够删除和替换字符的一个简易命令tr [option] string1 [string2]-c -C –complement 填充除了你想要字符之外的character -d –delete 删除-s –squeeze-repeats 替换代码实现1 -c参数echo file

2015-10-15 14:23:41 500

转载 SQLNestedException: Cannot create JDBC driver of class '' for connect URL 'null' 解决办法

我的问题是mysql里面的,同样适用。------------------------------------------------------------------------------------------------------------------------------------------------------------------环境:tomcat6、

2015-02-01 19:00:43 617

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除