yongrl-CSDN博客

原创 Clickhouse 常见操作

汇总clickhouse常用操作

2024-06-26 13:40:07 895

原创【刷题】160. Intersction of two linked List

文章目录Problem State解法一：暴力搜索解法二：双栈解法三：双指针，计算链表长度解法4：双指针，不直接计算出长度Problem State# Write a program to find the node at which the intersection of two singly linke# d lists begins. # # For example, the following two linked lists: # # # begin to intersec

2020-08-05 12:14:49 261

原创联邦学习概念

文章目录联邦学习相关概念联邦学习需要达到的效果联邦学习概念联邦学习的分类纵向联邦学习系统构架联邦学习相关概念联邦学习是为了解决数据孤岛以及隐私保护和数据安全问题在多方安全计算框架上实现的机器学习算法。联邦学习需要达到的效果联邦学习概念联邦学习的分类根据孤岛数据的不同分布特点，提供不同的联邦学习方案，数据分布的三种情况：对应三种不同形式的联邦学习方式：横向联邦学习：适用于两个...

2020-05-08 15:48:48 5478 1

原创 Support Vector Machine

重看SVM时，同事过来看了一眼：“还看SVM呢？SVM已经被淘汰了”，有点伤感，上学那会SVM还算是主流的分类器，所有机器学习课也逃不过SVM。随着ensemble tree以及神经网络等方法的普及，svm在模型精确度上也丧失了优势地位，SVM应当是少数的从几何出发建立的模型，似乎拓展性都不是很强，但是它仍然是我们不能避过去的模型，我们基本上是从SVM中开始学习机器学习中的一些概念，比如：结构经验...

2020-05-08 15:42:58 565

docker初识（二）：安装docker和基于docker的tensorflow

导航docker 社区版安装安装tensorflow 镜像运行tensorflowdocker 社区版安装平台： CentOS 7.2官方文档： https://docs.docker.com/install/linux/docker-ce/centos/卸载docker老版本$ sudo yum remove docker \ docker-cl...

2019-12-30 18:28:39 359

翻译 docker初识（一）

docker是一个用于开发，发布，运行应用的平台，可以管理应用的同时管理平台，开发者只用关心应用的开发，而不需要再去关注开发环境与生产环境之间的差异。docker 平台docker 可以在容器内打包和运行应用，容器是一个相对分离的环境，允许在一个主机上运行多个容器，容器不需要多余的虚拟机管理程序，所以它是轻量级的，相比于虚拟机，硬件上可以更多的容器，甚至可以在虚拟机上运行docker容器。d...

2019-12-19 21:24:01 470

原创 Coordinate Descent 坐标轴下降法

梯度下降法、牛顿法是机器学习中复杂优化问题求解的方法。(最优化、凸优化、梯度下降和牛顿法)[]中对优化问题和梯度下降法、牛顿法进行了详细的介绍。能够使用梯度下降法和牛顿法的前提是优化目标函数是可导的，如果要在在目标函数中加入l1范式项，l1范式在零点处不可导，就不能使用该类梯度下降方法，而坐标轴下降方法就是来解决这类优化问题：f(x)=g(x)+∑i=1nhi(x)f(x) = g(x) + \...

2019-10-23 19:58:46 915

转载最优化、凸优化、梯度下降和牛顿法

本文是对公众号SIGAI中对凸优化，梯度下降，牛顿法等一系列文章的整理。SIGAI:理解凸优化SIGAI:理解梯度下降法SIGAI:理解牛顿法最优化问题在机器学习中有非常重要的地位，很多机器学习算法最后都归结为求解最优化问题。凸优化（convex optimization）是最优化问题中非常重要的一类，对于机器学习来说，如果要优化的问题被证明是凸优化问题，则说明此问题可以被比较好的解决...

2019-06-28 20:47:51 4077

翻译 python函数参数*和**

在看python的代码时，经常会看见函数定义的参数中有*和 **符号来表示变长的参数。它们分别代表什么呢？具体怎么操作呢？默认的习惯写法为args 和 **kwargs，先来看看args。*args*args表示一个变长的无关键字参数列表：def test_var_args(f_arg, *argv): print("first normal arg:", f_arg) ...

2019-04-29 11:48:56 471

原创逻辑斯特回归总结

这篇文章主要是我整理的逻辑回归模型在面试中涉及到的问题。文章目录逻辑回归模型介绍逻辑回归的基本假设逻辑回归的损失函数逻辑回归的损失函数为什么要使用极大似然函数作为损失函数？逻辑回归的求解方法梯度下降其他方法逻辑回归的目的逻辑回归的优缺点特征问题特征相关性问题特征离散化特征交叉逻辑回归是线性模型吗？逻辑回归输出值的意义欠拟合和过拟合多分类问题模型之间的对比线性回归最大熵SVM贝叶斯逻辑回归模型介...

2019-04-12 10:03:01 13093 1

翻译从理论角度再看decision trees

A useful view of decision trees翻译太难了，还是看原文吧，就罗列了一下公式简介学习机器学习课程时，首先学习的是ID3决策树。ID3和其他相关的决策树模型非常好描述和实现，所以经常在这类课程的前段教授，但是可惜的是，很多决策树的课程都终止这种特殊的模型描述。一开始学习决策树的时候，我以为决策树这种特殊的模型描述是完全出自工程方面的考量，而不是理论方面的推导：模型...

2019-04-11 18:31:19 324

原创 Word2Vec

2019-04-11 09:50:34 205

原创参数估计：MLE，MAP，Naive Bayes Classification

文章目录1. 统计学学派2. 贝叶斯公式3. MLE3.1 MLE估计伯努利分布参数3.2 Hoeffding's inwquality3.3 MLE估计高斯分布参数4. MAP4.1 MAP估计伯努利分布参数4.2 MLE vs. MAP5. 贝叶斯分类器6. 从三个角度建模LR6.1 MLE：LR6.2 MAP：Regularized LR6.3 Bayesian: Bayesian LR参考...

2019-04-04 19:01:09 1521

原创拉格朗日对偶

拉格朗日乘子拉格朗日乘子和拉格朗日对偶问题是优化问题中的一种优化技巧。根据不同的优化约束条件，优化问题可以分为无约束条件的优化和有约束条件的优化。对于无约束条件的优化问题：minx∈Rnf(x)min_{x \in R^n} f(x)minx∈Rnf(x)如果f(x)连续可微，只需要对f(x)求导，令导数为0，即可得到最优解。那么有约束条件又是什么情况呢？minx∈Rnf(x)mi...

2019-04-02 18:42:24 591

原创连续特征离散化（整理）

文章目录离散特征为什么要连续化离散化处理的一般过程离散化方法的分类无监督的方法有监督的方法卡方检验（CHI）信息增益法（IG）离散化方法的评价离散化工具sklearn.preprocessing.KBinsDiscretizerpd.cut参考离散特征为什么要连续化作者：严林链接：https://www.zhihu.com/question/31989952/answer/54184582...

2019-04-01 17:06:04 7248

原创 SQL（41-58）

文章目录41. 构造一个触发器audit_log，在向employees_test表中插入一条数据的时候，触发插入相关的数据到audit中。42. 删除emp_no重复的记录，只保留最小的id对应的记录。43. 将所有to_date为9999-01-01的全部更新为NULL,且 from_date更新为2001-01-01。44. 将id=5以及emp_no=10001的行数据替换成id=5以及e...

2019-03-31 11:13:38 592

原创 SQL（21-40）

文章目录21. 查找所有员工自入职以来的薪水涨幅情况，给出员工编号emp_no以及其对应的薪水涨幅growth，并按照growth进行升序22. 统计各个部门对应员工涨幅的次数总和，给出部门编码dept_no、部门名称dept_name以及次数sum23. 对所有员工的当前(to_date='9999-01-01')薪水按照salary进行按照1-N的排名，相同salary并列且按照emp_no升...

2019-03-31 11:12:07 341

原创 SQL（01-20）

文章目录01. 查找最晚入职员工的所有信息02. 查找入职员工时间排名倒数第三的员工所有信息03. 查找各个部门当前(to_date='9999-01-01')领导当前薪水详情以及其对应部门编号dept_no04. 查找所有已经分配部门的员工的last_name和first_name05. 查找所有员工的last_name和first_name以及对应部门编号dept_no，也包括展示没有分配具体...

2019-03-31 11:10:54 573

翻译 Multiprcessing in Python

原文：Multiprocessing in Python | Set 1 (Introduction)原文：Multiprocessing in Python | Set 2 (Communication between processes)what is multiprocessing?multiprocessing指计算机能够支持多个处理器同时运作。multiprocessing系统的应...

2019-03-28 00:02:26 356

原创八皇后问题

问题描述八皇后问题，是一个古老而著名的问题，是回溯算法的典型案例。该问题是国际西洋棋棋手马克斯·贝瑟尔于1848年提出：在8×8格的国际象棋上摆放八个皇后，使其不能互相攻击，即任意两个皇后都不能处于同一行、同一列或同一斜线上，问有多少种摆法。高斯认为有76种方案。1854年在柏林的象棋杂志上不同的作者发表了40种不同的解，后来有人用图论的方法解出92种结果。回溯回溯的思想非常简单，就像我...

2019-03-26 16:57:52 400

原创 python在递归中的坑

用python写递归方法解决八皇后问题时，出现了很多问题递归无法退出递归中的return只会退出当前调用的函数ftf_tft，如果仅在ftf_tft中return了，那么程序不会直接退出整个递归调用，而是返回到上一个调用函数ft−1f_{t-1}ft−1，继续执行ft−1f_{t-1}ft−1中没有执行完的部分，所以在写return的时候，一定要考虑清楚return 的值和return...

2019-03-26 11:33:46 2933

原创 neural networks and deep learning 笔记（一）

目录What is a nerual network?Supervised Learning with Neural NetworksWhy deep learning taking off?Binary ClassificationLogistic RegressionGradient DescentComputation GraphVectorizatio...

2019-03-21 18:00:53 967

原创剑指offer(一)

文章目录二维数组中的查找从尾到头打印列表重建二叉树用两个栈实现队列旋转数组的最小数字矩形覆盖二进制中1的个数数值的整数次方调整数组顺序(可再优化)链表中倒数第K个节点反转链表合并两个有序列表数的子结构二叉树的镜像顺时针打印矩阵包含min函数的栈二维数组中的查找在一个二维数组中（每个一维数组的长度相同），每一行都按照从左到右递增的顺序排序，每一列都按照从上到下递增的顺序排序。请完成一个函数，输入...

2019-03-14 09:45:36 176

原创集成树之三：GBDT

GBDT(Gradient Boosting Decision Tree)是目前工业和各种竞赛中非常抢手的模型，性能表现出色，特别是XgBoost，LightGBM推出后，模型性能和运行效率进一步提升，了解XgBoost模型，先整理一下GBDT吧。文章目录GBDT概述CARTBoostingGradient Boosting模型公式推导框架框架扩展least-squares regression...

2019-03-13 10:53:32 22146 3

翻译使用tensorflow理解GBDT的可解释性

前一篇《boosted trees》完整训练了一个Boosted分类树，这篇文章主要是在上篇的基础上讲解以下三个内容：理解各个特征对单个样本预测结果的贡献各个特征对模型的重要性从直觉上了解Boosted Tree 是怎么fit数据的文章目录模型的可解释性构建模型加载数据创建特征输入模型训练local interpretability可视化单个样本的DFCs优化可视化单个样本的DFCs V...

2019-03-08 09:36:05 4551 1

原创 "The kernel appears to have died. It will restart automatically"问题

用jupyter notebook 运行教程中这个cell时，总会报"The kernel appears to have died. It will restart automatically"错误。params = { 'n_trees': 50, 'max_depth': 3, 'n_batches_per_layer': 1, # You must enable cent...

2019-03-07 11:16:13 4305

翻译使用TensorFlow训练Boosted Trees model

How to train Boosted Trees models in TensorFlow 官方文档链接这篇tutorial适用tf.estimator完整的训练一个Gradient Boosting Decision Tree(GBDT)模型。Boosted Tree是非常流行且有用的分类和回归模型，它使用集成技术将多棵树的预测结果整合成一个结果值。文章目录titanic数据集处理加载...

2019-03-06 17:36:05 2588 4

原创为jupyter notebook添加插件

用jupyter notebook 记教程笔记的时候，突然想添加目录，搜索之后安装成功，简单记录一下，默认已经安装配置好jupyter notebook啦。1. 安装jupyter_contrib_nbextensions直接使用了pip安装：pip install jupyter_contrib_nbextensions2. 配置先关闭Jupyter notebook，在 jupy...

2019-03-06 12:25:06 2284

原创 if name==‘main‘理解

今天在参考别人代码学习tensorflow时(代码如下)，总觉得代码中的main函数内FLAGS变量没有定义，当时觉得好神奇哦（因为我把if name == ‘main’:及下面这一段当做的一个函数，类似于java中的psvm了），然后翻看了半天if name==‘main’ 的解释，然后恍然大悟，python是按行解释的呀，if name == 'main’只是一个判断语句，里面的都是全局变量啊...

2019-03-01 18:32:26 6263 2

原创 pandas 之表的连接操作

文章目录问题DataFrame中的表连接方式joinmergeconcat总结问题在分析数据时，遇到了要处理多个dataframe按照关键词user_id连接的需求，在sql中只要多个表left join on 就可以了，那么在pandas中怎么操作呢？DataFrame中的表连接方式dataframe主要有三个函数可以用来做表的连接，分别是join、merge、concat，下面分别介绍...

2019-02-27 18:25:07 3686

原创方差、协方差、相关系数的理解

方差和协方差机器学习中常见的两个概念，公式也几乎是随处可见，但是每见一次都像是初次见面，又去想半天各种公式、概念和意义，所以下定决心整理一下。方差和协方差定义方差度量单个随机变量的离散程度，公式如下：σx2=1n−1∑i=1n(xi−x‾)2\sigma^2_x = \frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2σx2=n−11i=1∑...

2019-02-27 18:11:49 43601 5

yongrl的博客