编程小白的逆袭日记-CSDN博客

原创 Docker学习笔记 - 创建自己的image

使用Docker是现在最为流行的软件发布方式，本系列将阐述Docker的基本概念，常用命令，启动脚本和如何生产自己的docker image。

2024-05-27 19:01:28 2895 1

原创 Docker学习笔记 - 使用配置脚本来启动image

使用Docker是现在最为流行的软件发布方式，本系列将阐述Docker的基本概念，常用命令，启动脚本和如何生产自己的docker image。

2024-03-21 19:06:42 1378

原创 Docker学习笔记 - 常用命令

使用Docker是现在最为流行的软件发布方式，本系列将阐述Docker的基本概念，常用命令，启动脚本和如何生产自己的docker image。

2024-03-20 17:12:52 1813

原创 Docker学习笔记 - 基本概念

使用Docker是现在最为流行的软件发布方式，本系列将阐述Docker的基本概念，常用命令，启动脚本和如何生产自己的docker image。

2024-03-20 13:08:53 586

原创 [机器学习笔记] K-mean聚类算法即实现代码

在机器学习领域有一个非常特殊的存在——无监督学习, 其中最为经典就是聚类算法了。聚类算法因为其不需要先验标签，因此在很多领域应用都较为广泛，其中最经典的算法就是Kmean Cluster。

2022-06-25 17:49:28 2682 1

原创 [数学基础知识] Cramér‘s V 相关系数和Python算法实现

1. 什么是Cramér’s V 相关系数在统计中，Cramér’s V (又称为Cramér’s phi，表示为φc) 是一个衡量两个分类变量之间关联的度量，它是一个介于0和+1(包括)之间的值， 0表示两个变量无关，1表示完全相关。它是基于Pearson’s chi-squared statistic（皮尔森的卡方统计），由Harald Cramér于1946年发表的。所以在介绍Cramér’s V 相关系数之前，我们先来了解一下皮尔森的卡方统计。2. 皮尔森的卡方统计（Pearson’s c

2021-09-25 21:35:02 9696 1

原创 [数学基础知识] 协方差和相关系数以及使用pandas进行自动计算

在研究两组数据之间的关联性时会用到的一些概念。1. 协方差(Covariance) 和协方差矩阵协方差表示的是两个变量的总体的误差，这与只表示一个变量误差的方差不同。如果两个变量的变化趋势一致，也就是说如果其中一个大于自身的期望值，另外一个也大于自身的期望值，那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反，即其中一个大于自身的期望值，另外一个却小于自身的期望值，那么两个变量之间的协方差就是负值。期望值分别为E[X]与E[Y]的两个实随机变量X与Y之间的协方差Cov(X,Y)定义为：

2021-09-25 16:24:54 3282

原创 [tensorflow] 在linux机器上远程使用tensorboard

Tensorboard是一个很不错的可视化监控Machine Learning学习过程的工具，可以非常方便的查看损失，准确率，以及各项自定义的参数。在本地运行tensorboard非常的简单，只要在命令行里执行以下命令：tensorboard --logdir=<你的tensorboard数据存储目录>然后在浏览器地址栏输入“http://localhost:6006" 就可以了。但是如果你的jupyter notebook是在云端的呢？似乎这样就不行了，我在网上查了一下发现以下方法亲测

2021-08-30 03:14:38 1021

原创 [杂七杂八] Git Clone报错，server certificate verification failed 即解决

记录一下今天遇到的一个小问题，使用git clone时报错，完整错误信息如下。我的工作环境是ubuntu的，github上没有加SSH或GPG的key，而且clone也是不需要用户认证的。这个问题让我很是困惑，网上查了一下相关信息，让我找到了解决方案如下。export GIT_SSL_NO_VERIFY=true我参考网上信息如下：https://confluence.atlassian.com/bitbucketserverkb/resolving-ssl-self-signed-certif

2021-08-29 05:57:50 1119 1

原创 [Tensorflow] sparse_softmax_cross_entropy_with_logits的NaN问题

这是今天遇到的一个Tensorflow问题，使用sparse_softmax_cross_entropy_with_logits始终返回NaN。查阅了Google后在github上找到了答案。先说一下我的程序吧。n_classes= 5x = tf.placeholder(tf.float32, [None, 20])y_ = tf.placeholder(tf.int64, [None])w = tf.Variable(tf.random_uniform([20,n_classes]),n

2021-06-01 02:50:07 1045

原创 [算法分析笔记]顺序统计和中值

1. 问题定义有nnn个元素的数组AAA，查找第kkk小的元素，即将数组按从小到大排序，排在第kkk位的元素。注意，这里只是要找到这个元素，并不要求将数组排序。首先，我们来看一下最朴素的求解问题的想法是什么？第一步，数组AAA按从小到大排序。第二部，顺序找到A[k]A[k]A[k]并返回。这个算法的算法时间复杂度:排序的时间复杂度+找到第k个元素的时间复杂度排序的时间复杂度+ 找到第k个元素的时间复杂度排序的时间复杂度+找到第k个元素的时间复杂度排序算法最优的时间复杂度已知是O(nlgn)O

2021-05-13 16:41:00 418

原创 [算法分析笔记]第一篇分治法

分治法是非常基本但又极其使用的算法思想，在此对于该算法思想做个简单介绍。1. 分而治之第一步：将一个问题划分成多个子问题第二部：解决每一个子问题第三部：合并已解决的子问题这三条看起来是不是特别像废话，看完了还是不知道具体要怎么操作。确实如此，要理解分治法还是要从实际例子出发。接下来就介绍两个使用分治法思想的算法。2. 使用分治法思想的算法实例2.1 归并排序（merge sort）归并排序的基本思想就是将一个序列不断拆分直到单个元素，然后再两两合并且同时排序，直到最终合成一个完整的序列。

2021-05-06 00:02:22 247

原创 [算法分析笔记] 最短路径（下）Ballman-Ford算法

上一篇文章，介绍了Dijkstra算法求最短路径，但使用Dijkstra算法时必须保证所有边的权值非负。这篇文章就让我们来看一下，如果存在负值的边，该如何改进算法以适应需求。这里我们要介绍一个新的算法–Ballman-Ford算法，在有复制...

2021-04-30 17:04:42 778

原创 [算法分析笔记]最短路径（上）- Dijkstra算法

1. 问题定义在一个图中寻找最短路径的问题可以定义如下：Graph(V,E)Graph(V,E)Graph(V,E)中:VVV是所有顶点的集合EEE是边的集合，E中的每个元素用一对顶点集合表示，比如(A,B)(A,B)(A,B)就表示从顶点AAA到BBB的一条有向边。WWW是映射条边的权重的方法，W(E)=WeightW(E)=WeightW(E)=Weightu,vu,vu,v是Graph(V,E)Graph(V,E)Graph(V,E)中的任意两个顶点，寻找从uuu到vvv的最短的路径。

2021-04-24 19:53:55 415 2

原创 [数学基础知识] 线代里的svd, numpy 的svd以及sklearn的TruncatedSVD

SVD的全称Singular Value Decomposition，中文名是矩阵的奇异分解。它是一种常见的做矩阵降维处理的算法，在图像压缩和NLP算法中经常被用到。本文是我在编程过程中，对于数学中的SVD，numpy的svd方法，以及sklearn中的TruncatedSVD方法在实际应用中的一些理解和体会。线性代数里的SVDA是mxn的实数矩阵, 则A可以分解成以下的形式A=USVTA=USV^TA=USVT ，其中U是mxm的矩阵，S是mxn的对角阵，其主对角线上的每一个值被称为奇异值，V是nx

2021-01-18 00:13:04 2855 2

原创 [python环境配置] CondaHTTPError: HTTP 000 CONNECTION FAILED for url ...

我用的是ubuntu的系统，http_proxy和https_proxy都已经设置，上网正常。此外，因为该服务器在海外，因此上google也是正常的。但是当我要使用conda install安装新的包时，却出现了如下报错。在百度上搜索了一下，大家都说是访问不了google的问题，要设置一个anaconda的国内镜像，可是我明明在国外，google访问都正常，所以不可能是这个问题。此时，我注意到报错信息中有提到’certificate verify failed’, 于是我就顺手试了一下。wget

2021-01-05 11:04:14 410

原创 [算法分析笔记]最小生成树（Minimum Spanning Tree）- 贪婪算法（Greed Algorithm）

一. 复习图（Graph）的表示法GraphG=(V,E)Graph G=(V,E)GraphG=(V,E)VVV是所有的顶点的集合EEE是所有的连接顶点的边的集合， EEE无向图， EEE包含的边是没有方向性的。有向图，EEE包含的边是有方向性的。图的一些属性∣E∣=O(V2)|E|=O(V^2)∣E∣=O(V2)如果G是连通的，即从任意两个顶点之间有通路存在，∣E∣>∣V∣−1|E|>|V|-1∣E∣>∣V∣−1lg(∣E∣)=θ(lg(∣V∣))lg(|E|)

2021-01-02 15:39:06 798

原创 [算法分析笔记] 动态规划（Dynamic Programming）- 最长公共子序列（LCS）

在开始讲动态规划之前，我们先来讲一个算法问题的实例，由此引出动态规划的一系列概念。最长公共子序列问题（LCS）给定两个序列x[1…m]y[1…n]求他们最长公共子序列比如：X:ABCBDABX: A B C B D A BX:ABCBDABY:BDCABAY: B D C A B AY:BDCABA那么他们的最长子序列有 LCS(X,Y)=BDAB,BCAB,BCBALCS(X,Y)={BDAB, BCAB, BCBA}LCS(X,Y)=BDAB,BCAB,BCBA此处注意，最长子序列

2020-12-26 23:38:02 792

原创 [算法分析笔记] 竞争分析（Competive Analysis）

竞争分析的定义对于一种在线算法A，如果存在一个常数K，对于任何序列S的操作的成本， CA(S)<=α.Copt(S)+KC_A(S)<= \alpha.C_{opt}(S)+KCA(S)<=α.Copt(S)+K, 则我们可以称算法A为α\alphaα - 竞争的，此处，CoptC_{opt}Copt是最优算法的成本，又称上帝算法，假设该算法可以预见所有的后续操作并给出一个最优的算法。为了说明竞争分析的方法，我们要对一个在线算法进行分析，并证明该算法是α\alphaα - 竞

2020-12-26 00:18:04 1708

原创 [算法分析笔记] 平摊成本分析（Amortized Analysis）的三种方法

什么是平摊分析?在分析一个对某序列的操作的成本时，我们会发现有些场合成本会比较低，而有些场合成本又会很高，平摊分析就是研究其每一趟操作的平均成本，而不关注于某一次的特定操作。平摊分析有以下几种分析方法：聚合分析会计分析势能分析聚合分析实例让我们通过动态表（Dynamic Table）的例子来学习聚合分析。动态表是一个哈希表（hash table）的实现方案，其主要特征是动态的根据需要来增加表的空间，适用于当我们初始时无法预知该表的长度。具体的操作步骤如下：初始状态表仅有一个元素

2020-12-24 21:24:44 3741 3

原创 [Tableau实用技巧] 复杂的组合计算

最近做的Tableau报告里遇到一个非常有意思的复杂组合计算。问题描述首先，来说一下业务逻辑。售后服务部门有两种服务业务，第一是免费的保修服务，第二是收费的保外服务。保修服务是指在保修期内，非客户原因造成的损坏，则可以提供免费维修。保外服务是指在保修期内因客户原因造成的损坏，和保修期外一切的损坏，提供有偿维修服务。因此，保内返修率计算公式：保内维修量 / 保修期内产品量所有保修维修全部来自于保修期内产品，因此分母为保修期内产品量。保外返修率计算公式：保外维修量 / （保修期内产品量

2020-05-28 17:48:41 1829

原创 [每日算法15分钟] 生成斐波那契数列第N项

算法分析是我最喜欢的课程之一。一个精妙的算法，犹如一杯香浓的咖啡，让人意犹未尽。算法代码，python。今天分享的这个算法是生成斐波那契数列第N项。斐波那契数列（Fibonacci sequence）F0=0,F1=1,F2=1,...,Fn=Fn−2+Fn−1F_0=0, F_1 = 1, F_2 = 1, ... ,F_n = F_{n-2}+F_{n-1}F0=0,F1=1,F2=1,...,Fn=Fn−2+Fn−1写一个方法def fibonacci(n) 生成FnF_nFn

2020-05-19 22:05:01 885 1

原创 [Tableau实用技巧] - 对年，月，日使用不同的计算公式

最近使用Tableau做了一个项目的输出报表，对于公司KPI会有一些比较复杂的计算公式需要在Tableau里实现。我做的过程中在网上查了不少资料，发现大部分关于Tableau的教程都会讲一些花里胡哨的报表技巧，所以此文想讲些比较务实一点的东西。技巧一. 对年，月，日使用不同的计算公式年度化的返修率计算月：当月维修量 x 12 / 当月出货量季度：当季维修量 x 4 / 当季度出货...

2020-04-29 00:22:20 3499

原创数据分析团队管理日常 - 数据分析项目的技术架构选择和成本预测

项目需求首先，描述一下该数据分析项目的需求。该项目通过对历史数据的分析，建模，从而对预测未来的趋势。需要分析历史数据，必然需要从各个不同数据源获取不同的数据，并且整理成期望的格式。需要对数据建模，分析，则必然是有许多参数需要记录和调整。预测模型和预测算法经常会需要做一些局部的调整来适应业务的变化。数据分析专家，会经常需要改动预测参数和预测算法来调整预测结果，且数据分析专家不会任何编程...

2020-04-27 22:34:22 1033 1

原创小白的机器学习笔记系列之七 - 简单的BP神经网络实例

继续上一课的神经网络的话题，这次我们来实践一个简单的BP神经网络分类任务。数据集介绍首先，来认识一下任务所需的数据集 - voice gender dataset。这个数据集是用于通过声音的一些属性来鉴别声音的性别。数据集包含了3168条数据记录，分别来自男性或女性的声音属性。数据集格式是csv格式。声音的属性包括平均频率，频率的表方差，频率的中位数等20项声音属性，皆为float类型数据...

2020-04-04 15:00:31 1133

原创小白的机器学习笔记系列之六-神经网络

随机数梯度下降(SGD)神经网络模型反向传播算法

2020-03-29 18:10:36 559 1

原创 [Tensorflow] 多个训练分配GPU资源的方法

首先来描述一下我遇到的问题。最近想做一个训练实验，比较两个不同超参数配置下的训练效果。我比较了一下使用GPU和使用CPU的训练速度，差距还是很明显的。但是，问题是我只有一台工作站，配有一块Quadro K2200d的显卡，显存是4G，如果我启动一个训练进程，显存占用空间就可以到达3G，但是GPU的占用率却很低，大部分时间都是0。nvidia-smi -l --loop=2使用以上命令可以持续...

2020-03-23 17:32:07 1859 1

原创 [Tensorflow] Anaconda+Tensorflow-gpu+Juypter Notebook安装配置踩坑记录

在Ubuntu上完成了NVIDIA Driver, CUDA和cuDNN安装，继续记录Anaconda+Tensorflow-gpu+jupyter notebook安装中踩的坑

2020-03-07 18:23:10 575

原创 [Tensorflow] Ubuntu下NVIDIA Driver+CUDA+cuDNN 安装踩坑总结

最近安装了3台workstation, 显卡分布是Quadro P2000, Quadro K220和Quadro 2000。其中第一台工作站是去年新入的，另外两台都是3-5年历史的旧机器了。第一台的新机器的安装比较顺利，另外两台由于显卡比较老，只能装比较旧版的驱动，因此CUDA也不能装最新版的，由此就出现了许多的问题，踩了无数的坑，这里总结以下分享给大家。

2020-03-07 08:34:45 1679 1

原创 [Tensorflow] 第四课训练数据读取的几种方法

使用Tensorflow搭建卷积网络用于各种训练时，需要处理训练的图像和标签，批量的输送给训练的网络。 Tensorflow提供了非常丰富的数据预处理的方法，这里介绍一个最简单的方法，使用tf.train的string_input_producer 方法和 tf.WholeFileReader对象配合来读取训练图像。1. tf.train的string_input_producer方法介绍 ...

2020-02-22 18:43:18 1146 1

原创使用EXCEL快速实现二参数威布尔分布拟合

最近我在公司里做了一个小项目，帮助产品部门建立一个数据模型来预测产品的维修率和返修成本，其中有一步需要估计二参数威布尔分布的参数。在网上看了一些论文，威布尔参数估计的方法有很多种，比如常见的有极大似然估计法，最大相关系数优化法，最小二乘法等等。因为考虑我目前仅是做模型验证，因此我采用了计算量相对比较小的最小二乘法进行估算，并在EXCEL里利用趋势图直接获得相关参数。先来介绍一下威布尔分布（We...

2019-12-23 16:35:01 24895 7

原创 [Tensorflow]第三课搭建简化版LeNet5来训练识别CIFAR-10图片数据

Lenet5是由Yann LeCun于1998年在论文Gradient-based learning applied to document recognition中提出的，在论文中它识别MNIST手写数字的识别率。此处我们要来改造一下这个网络，已用于cifar10数据的训练和识别。

2019-06-09 09:32:53 1240

原创数学基础知识系列 - 点到超平面的距离

假设有点x0=(x01,x02,...x0m)x_0 = (x_0^1,x_0^2,...x_0^m)x0=(x01,x02,...x0m)不在超平面y=wx∗by=wx*by=wx∗b上，其中w=(w1,w2,...wm)w = (w^1,w^2,...w^m)w=(w1,w2,...wm)，求x0x_0x0到y=wx∗by=wx*by=wx∗b的距离。步骤一：证明www为超平面y=...

2019-04-06 16:43:04 2430

原创小白的机器学习笔记系列之五 - 朴素贝叶斯分类

小白的机器学习笔记系列之五 - 朴素贝叶斯分类这个内容算是一个番外吧。原本写完了逻辑回归就想写神经网络了，但是看到一个朴素贝叶斯分类的例子，所以自己也就写了一些程序来尝试，结果发现这个算法看似简单，实际的应用效果却出其意料的好，所就写一个章节。

2018-11-18 23:09:21 461

原创小白的机器学习笔记系列之四-逻辑回归

前面我们讲了线性分类和线性回归，这里让我们来思考另外一类问题——求概率问题。比如说，我们根据一个人的既往病历，生活习惯，年龄等来判断一个人是否会得心肌梗塞。我们想要的答案不仅仅是一个简单的是或否，实际上我们希望知道的是得心肌梗塞的风险有多大。医生会根据病人的情况以及自己的经验做出**很高危，高危，中等风险，低风险**等判断，实际上这可以看做是一个概率问题，我们可以划定当得心肌梗塞的概率高于某个概率值时，我们认为是**很高危**，当处在某一个概率区间则认为是**高危**，以此类推。那么，机器学习是否可

2018-10-06 15:22:14 449

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Improving Distributional Similarity with Lessons Learned from Word Embeddings

二参数威布尔分布拟合的EXCEL实列

小白的机器学习笔记系列 之七 - 简单的BP神经网络实例

voicegender_data.zip

Le-Net5_train_cifar10.zip

空空如也

小白的机器学习笔记系列之七 - 简单的BP神经网络实例