学习飞行的山药-CSDN博客

原创集成学习概述

参考链接：集成学习方法bagging，boosting，stacking【入门】一文看懂集成学习（详解 bagging、boosting 以及他们的 4 点区别）【详细，建议看】集成学习（Ensemble Learning)【全面】什么是集成学习？简单来说，就是组合多种模型来改善机器学习的结果。具体来说，即结合数个“好而不同”的机器学习技术，形成一个预测模型，以此来降方差（bagging），减偏差（boosting），提升预测准确性（stacking）。集成学习是一种「训练思路」，并不.

2021-05-24 10:44:52 934

原创小白环境配置踩坑史

背景最近从纸上谈兵到上手项目了，但是环境配置这一步就总是出问题，愁掉了大把头发。这里记录一下自己踩过的坑，以防再犯。持续更新ing。虚拟环境虚拟环境即独立(隔离)的Python环境，不同虚拟环境的依赖不会相互干扰每个项目运行时必备的一部分，开始设置好虚拟环境，会为之后的工作省很多力气。虚拟环境的应用场景：同时从事多个项目开发，而每个项目需求的框架库版本不一致；为了避免卸载重装不兼容造成管理困难，我们需要虚拟环境虚拟环境的作用：每一个环境都相当于一个新的Python。你可以在这个新的

2020-10-20 16:19:35 329 1

转载因果推理初探

参考链接因果推理初探系列评价：小白友好！讲的非常详细！背景近期在看结构化因果相关的论文，没有基础看的云里雾里，想着大致了解一下因果推断相关知识，顺手整理了本博客，主要是对于参考链接中系列的个人理解。因果关系虽然深度学习是现阶段最常用的方法之一，但是要知道它并不是万能的。深度学习需要大量的数据以及调参，而且仅仅是进行“曲线拟合”。因果关系就是目前深度学习训练出的模型中无法得到的信息之一。了解因果关系对于深度学习的特征选取也具有很重要的意义。将存在“因”关系的特征加入深度学习模型的学习当中，一

2020-10-10 17:00:32 3021

原创 Python实操问题整理

基础篇数据类型1.dict（1）交换字典的键和值{value:key for key, value in a_dict.items()}dict(zip(a_dict.values(), a_dict.keys()))（2）dict合并两个不同键值的dict合并d3.update(d1)d3.update(d2)d3 = {**d1, **d2}注意：如果两个dict有重复键值，那么以后update的dict的值为准。（3）排序（4）两个list ←→\leftarrow \

2020-09-21 20:42:51 511 2

原创 Linux——Shell编程入门

定义Shell脚本，是一种为shell编写的脚本程序，一般文件后缀为.sh运行赋予文件可执行权限chmod file_path指定脚本解释器#! /bin/sh 或者 #！/usr/bin/env bash#！向系统表示，其后路径指定的程序是解释该脚本文件的shell解释器脚本文件脚本文件的第一行必须指明运行该脚本的程序基本语法注释单行注释：#多行注释：:<<...

2020-03-10 19:54:04 186

原创 Attention机制粗读

参考链接：浅谈Attention机制的理解模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用Attention机制详解（一）——Seq2Seq中的AttentionIntuition类似于人的注意力机制。在观察某幅图像时，人不会将注意力平均的分散到图像的每一处，而是根据需求重点关注特定的某一部分。当我们发现图像的某一部分经常出现我们需要...

2019-11-25 21:22:42 291 1

原创简单的NER模型实现——CRF+LSTM

记录从零到实现CRF+LSTM的整个过程查找概述，了解实现的过程【1h30min】建立模型【3h】背景知识NER神经网络成为可以有效处理许多NLP任务的模型。这类方法对于序列标注任务（如CWS、POS、NER）的处理方式是类似的，将token从离散one-hot表示映射到低维空间中成为稠密的embedding，随后将句子的embedding序列输入到RNN中，用神经网络自动提取特...

2019-11-25 21:19:49 3527

原创 BERT粗读

记录对于Bert的了解从无到有的过程，完善ingDay1 [2.5h] 看博客简介，大概了解BERT做什么的、在哪里创新、模型的大概架构博客入门背景知识预训练模型目标是输出单词的表示。包括两大类，context-free或者是contextual，前者无论在什么语境下都会输出相同的表达，典型为word2vec；后者会与语境有关。Vaswani et al. (2017) 中描述的原...

2019-11-19 11:40:34 222

原创文件读写汇总

以下为参考链接：python篇读写文本文件.Python之旅Python文本处理常用功能Python文本处理正则表达式篇本篇的主要目的是汇总文本文件读写操作，作为备忘录和工具书。Python普通的文本读写函数读写的函数：read() // 将文本文件所有行读入到一个文件当中readline() // 将文本文件读入，一次读入一行readlines() // 将......

2019-11-15 11:38:08 458

原创《统计自然语言处理》第十章

统计机器翻译机器翻译概述机器翻译方法直接翻译将单词、短语或者是句子直接置换成为目标语言译文。基于规则的转换翻译方法独立分析-独立生成-相关转换将输入文本抽象成为内部表达形式，转换成为目标语言内部表达形式，然后再生成目标语言文本。优点在于可以较好的保持原文结构，产生的译文结构与源文结构关系密切，对于语言现象已知、句法结构规范的源语言句子具有较强的处理能力；缺点是分析规则人工编写。...

2019-10-25 16:37:19 283

原创《统计自然语言处理》第九章

词义消歧词义消歧又称之为词义标注，任务是确定一个多义词在给定的上下文语境当中的具体含义。发展概述早期多采用基于规则的分析方法；20世纪80年代以后，基于大规模语料库的统计机器学习方法在自然语言领域得到了广泛应用；除此之外，还有一个重要来源是基于词典信息的消歧方法。有监督的消歧方法当中，可以认为多义词的语义是与不同上下文进行对应的，所以说多义词的识别问题也就是词语的上下文分类问题；无监...

2019-10-24 21:47:20 589

原创《统计自然语言处理》第八章

句法分析句法分析是指对于输入的单词序列判断其构成是否合乎给定的语法，如果是，继续分析出句子的结构，常用树状数据结构表示。基于规则的句法分析方法基本思路是由人工组织语法规则，建立语法知识库，通过条件约束和检查来实现语法结构歧义的消除。根据语法分析树形成方向的区别，分析方法可以划分成为三个类型：自顶向下的分析方法、自底向上的分析方法和两者相结合的分析方法。前者的劣势在于穷尽式拓展非终结符节点...

2019-10-14 11:09:21 746

原创 cs224n NLP with dl笔记（四）

Backpropagation and computation graphs数学基础雅可比矩阵存在函数有n个输入，有m个输出。f(x)=f1(x1...xn)...fm(x1...xn)f(x)=f_1(x_1...x_n)...f_m(x_1...x_n)f(x)=f1(x1...xn)...fm(x1...xn)那么该函数的雅可比矩阵是一个m*n的矩阵，有：∂f∂xij...

2019-10-10 08:44:44 161

原创《统计自然语言处理》第七章

汉语自动分词定义在汉语文本中的词与词之间自动加上空格或者其他边界标记。主要困难/基本问题词是什么，即汉语分词规范问题。由于没有同一清晰的界定标准，单字词与词素、词与短语之间的划界非常困难。词由于语境的不同而含义不同，导致划分方式也不同；即歧义切分问题。切分歧义类型可以分成交集型切分歧义、组合型切分歧义以及混合型。前者又可以称之为偶发歧义。形式为AJB，其中AJ可以组成词语、JB也...

2019-10-09 11:22:47 547

原创 cs224n NLP with dl笔记（三）

Word Window Classification, Neural Networks, and Matrix CalculusPreview如何使用传统的ML/Stats方法进行分类？训练softmax或者是Logistic回归分类器决定决策边界。分类的损失函数使用什么？一般约定俗称的使用cross-entropy损失函数。...

2019-10-08 17:34:43 169

原创 cs224n NLP with dl笔记（二）

Word Vectors and Word Senses预习随机梯度下降有什么应用价值，或者说比起普通的梯度下降有什么区别？J(θ)J(\theta)J(θ)是语料库中所有窗口的累乘结果，计算和更新一次所需要的计算量太过于巨大。随机梯度下降可以解决这个问题。迭代的每次仅仅取一个窗口的梯度，具体是怎么计算的？为什么使用两个vector来分别表示一个单词为中心单词还是处于上下文的单词？...

2019-09-27 17:16:34 154

原创《统计自然语言处理》第六章笔记

隐马尔可夫模型马尔可夫模型马尔可夫模型描述了什么？马尔可夫模型描述了一个每个随机变量的值都依赖于这个序列的前面的状态的随机过程。通常所说的马尔可夫模型是离散的一阶马尔科夫链，指的是系统在时间t下的状态，只与其在时间t-1时的状态有关系。用数学关系式来描述就是：P(qt=sj∣qt−1=si)=aijP(q_t=s_j|q_{t-1}=s_i)=a_{ij}P(qt=sj∣qt−1...

2019-09-26 21:08:52 232

原创《统计自然语言处理》第五章笔记

语言模型n元语法语言模型是什么？语言模型通常构建为字符串s的出现概率。语言模型与句子是否符合语法是没有关系的，即使一个句子完全符合语法逻辑，我们仍然可以认为该句子出现的概率为0.语言模型的数学表示？P(s)=p(w1)p(w2∣w1)p(w3∣w1,w2)...p(wl∣w1...wl)P(s)=p(w_1)p(w_2|w_1)p(w_3|w_1,w_2) ... p(w_l|w_1...

2019-09-26 15:40:01 259

原创《统计自然语言处理》第四章笔记

语料库与词汇知识库语料库技术语料库是什么？语料库就是存放语言材料的数据库。语料库语言学就是根据语料库进行语言研究的一门学问，其中语料库这个修饰词代表的仅仅是一种手段。词汇知识库词汇知识库是什么？与语料库相对，是存放词汇相关知识的数据库。...

2019-09-26 11:20:01 182

原创《统计自然语言处理》第三章笔记

前言浏览本书的目的，是对于NLP领域统计方法建立一个大体的认知。所以很多地方不会详细展开，以弄懂思路为主。形式语言形式语言是什么？形式语言是用来精确的描述语言及其结构的手段。给定终结符、非终结符和规则，通过不断的推导，来得到句子。类似于编译器中的语法。形式语法有哪些类型？四种文法类型，约束逐渐减少。正则文法、上下文无关文法、上下文有关文法、无约束文法正则文法：规则右部替换之后...

2019-09-25 14:51:03 338

原创 cs224n NLP with dl笔记（一）

Introduction and word vectors预习部分上完课回过头来需要问自己哪些问题？NLP中使用的核心方法有哪些，阐述对他们的理解。语言是如何产生的，产生和理解过程中有哪些困难。使用PyTorch搭建框架解决实际问题。P11的换算是什么意思？如何在电脑当中存储有用的含义？一般的解决办法是使用WordNet，用来存储同义词集和相关词集。这种方法的问题如下：无法识...

2019-09-25 10:23:02 154

原创吴恩达学习笔记——第七周

SVM基础定义分类器监督算法代价函数基于逻辑回归的代价函数，我们逐步调节实现SVM的代价函数：修正cost(i)图中的紫色线为更正之后的cost.消去常数1/m权重常数位置改变最终得到的代价函数数学形式为：J(θ)=C∑i=1m[y(i)cost1(θTx(i))+(1−y(i))cost0(θTx(i)))]+λ/2∑j=1nθj2J(\theta)=C\sum_{i...

2019-05-09 18:09:48 209

原创吴恩达学习笔记——第五周

神经网络反向传播算法BP详细推导过程

2019-05-09 10:26:46 161

原创吴恩达机器学习笔记——第四周

神经网络神经网络算法的目的Logistic回归和线性回归很难或者不能处理复杂的非线性分类问题。很多分类问题需要使用数量巨大的特征，如果要使用二次项表示，会产生更多的特征项。模型表示神经元——逻辑单元如图所示，是一个人工的神经元，它负责将输入信息进行加工之后输出。其中，第一部分代表的是输入，x0=1x_0=1x0=1为偏置单元；第二部分是神经元，对于输入使用激励函数进行加工；第...

2019-05-09 01:40:47 260

原创吴恩达机器学习笔记——第三周

Logistic回归目的是解决分类问题，线性回归不能很好的解决分类问题，这是因为分类问题并不能拟合成为一条直线。假设函数为了使得分类更加方便，最好输出值在0到1之间。sigmod函数正好能够满足这个特点：g(z)=11+ezg(z)=\frac{1}{1+e^z}g(z)=1+ez1因此对于假设函数进行如下变换hθ(x)=g(θTx)h_{\theta}(x)=g(\theta^...

2019-05-09 00:34:40 267

原创 POSIX Threads编程简介

共享内存和分布式内存模型回顾Cache协同程序员无法控制cache，但是可以通过控制访存模式来更好的利用Cache。基于侦听的Cache协同核心共享总线——总线上的信号可以被所有核心所看到。如果有核心更新了缓存中的共享变量副本，广播到总线上；其他核心将Cache中的共享变量副本无效。问题：效率低。基于目录的Cache协同使用目录保存每个核心Cache使用的变量。共享变量更新...

2019-04-29 14:44:32 932 1

原创吴恩达机器学习笔记——第二周

多变量线性回归假设hθ(x)=θ0+θ1x1+θ2x2+θ3x3+θ4x4h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_3+\theta_4x_4hθ(x)=θ0+θ1x1+θ2x2+θ3x3+θ4x4为了表示方便，我们定义一个单纯为了计算方便的特征，也就是x0=1x_0=1x0=1.此时hθ(x)=θT...

2019-04-28 18:17:25 189

原创并行笔记——SIMD编程

SIMD概念Single Instruction Multiple Data也就是单指令流和多数据流，对于多数据流进行相同的操作。一个简单的例子就是向量的加减。和MIMD的区别SIMD拥有单个全局控制单元，而后者拥有多个控制单元+处理元素。SIMD的应用图像处理音频科学计算基于数据的数据并行计算。什么情况下适合应用SIMD规律的数据访问模式：数据在内存中连续存储。短数据...

2019-04-27 12:36:33 2828

原创吴恩达机器学习课程笔记——第一周

机器学习是什么？定义一：机器学习是无需显式编程就能使得计算机自主学习的学科。定义二：如果计算机随着经验E的积累，在任务T上用标准P衡量的表现越来越好，那么可以说计算机正在学习。应用实例数据挖掘不能够用手写代码实现的应用，比如无人驾驶。分类主要分类：监督学习无监督学习其他：3. 强化学习4. 推荐系统监督学习意即给出一个算法，需要部分数据集已经有正确答案，换句话说...

2019-04-18 10:52:07 276

原创并行算法的设计与分析

并行算法设计任务并行数据并行与任务并行不同，前者是划分操作和计算任务，核心对于数据进行不同的运算；后者是划分数据，而核心对于数据进行相同的运算。其他任务划分方法搜索分解将搜索树的每个子树划分成一个任务，与数据分解的区别在于，前者的所有计算工作都是有用的，对于后者一旦找到解，其他搜索工作也停止。工作量可能大于也可能小于串行算法。并行算法分析性能评价标准运行时间TpT_pTp并...

2019-04-13 10:58:12 2875

原创 SLOWLOG

SLOWLOG是什么？slowlog是执行时间超过给定时长的命令请求的记录。比如说Redis 的慢查询日志功能用于记录slowlog，用户可以通过这个功能产生的日志来监视和优化查询速度。SLOWLOG是怎么记录的？关系型数据库MySQL慢查询日志记录所有执行时间超过long_query_time秒的所有查询或不使用索引的查询。通过使用–slow_query_log[={0|1}...

2019-04-12 12:08:54 1377

转载 GitHub教程精简版

参考链接：史上最简单的GitHub教程**适用对象：**对于GitHub的功能似懂非懂，急需上手的人。

2019-04-12 10:30:10 244

原创机试准备（二）——排序

时间限制：常见1s，代表百万级运算级。比如：估计可以知道，n>3000,则不能使用冒泡排序(O(N2N^2N2))。掌握算法：冒泡排序、快排等。STL库用法例子：链接：https://www.nowcoder.com/questionTerminal/bf3ec474bb7d410dbb9d5bbcd07a93e5来源：牛客网对每个测试用例，首先输出1行“Case：”，其中 ...

2019-03-23 13:59:35 186

原创机试准备（一）——控制输出格式

控制输出格式参考文献：https://www.jianshu.com/p/6e02e4e70f30两种方法：控制符流对象的成员函数以下是“控制符”方法调节输出格式的方法：1. 设置数值的进制（设置数值的基数）理论基础：控制符作用 dec 设置数值的基数为10 hex 设置数值的基数为16 oct 设置数值的基数为8 setba...

2019-03-23 13:54:10 237

转载统计相关系数——Kendall Rank(肯德尔等级)相关系数

参考内容：统计相关系数(3)——Kendall Rank(肯德尔等级)相关系数及MATLAB实现作用： Kendall相关系数是一个用来测量两个随机变量相关性的统计值。肯德尔相关系数的取值范围在-1到1之间，当τ为1时，表示两个随机变量拥有一致的等级相关性；当τ为-1时，表示两个随机变量拥有完全相反的等级相关性；当τ为0时，表示两个随机变量是相互独立的。适用范围斯皮尔曼等级相关系数对数据...

2019-03-15 20:34:26 27704 3

转载什么是信息增益(Information Gain)?

参考链接：什么是信息增益(Information Gain)？信息熵到底是什么首先建立一棵决策树。信息增益是一个统计量，用来描述一个属性区分数据样本的能力。信息增益越大，那么决策树就会越简洁。这里信息增益的程度用信息熵的变化程度来衡量。假如我们所做的决策是是否出去玩，属性有风力、潮湿度等等。那么在有统计样本S的情况下，计算某属性信息增益的步骤如下：计算不用属性区分的情况下，决策属...

2019-03-15 20:06:02 23644

原创 Python代码规范

参考文献：PEP 81. 代码布局1.1 长句换行规范一行的限制字符长度为79，如果是对于文档或者注释，限制长度为72.一整行换行的方式一种是括号内隐含的换行，一种是通过反斜杠()来限制。# method 1attributes = ['query_time', 'tmp_table_sizes', 'rows_examined', 'tmp_disk_tables', 'tmp_...

2019-02-22 13:14:26 186

原创机器学习实战笔记（一）

Section 1 分类监督学习：从输入模型中预测合适的模型，从中计算出目标变量。必须知道预测什么，即目标变量的分类信息。目标变量分为标称型和数值型两类，在第一部分分类当中研究标称型的目标变量。1. 机器学习基础1.1 何谓机器学习简单来说，机器学习就是把无序的数据来转化为有用的信息。例子：专家系统。测量所有可测属性（特征），然后从中挑选出重要部分。算法训练，学习如何分类。输入大...

2019-02-22 12:00:22 393

原创 Python库入门(一)——numpy, pandas, matplotlib

目录numpy1. 简介2. 导入3. 初始化（1）一般形式（2）特殊形式4. 属性5. 基础运算(1) 算数运算(2)比较运算(3)矩阵运算(4)其他运算6. 索引7. 合并8. 分割pandas1. 简介（1）操作对象（2）优势（3）兼容格式2. 导入3. 选择数据4. 设置数据5. 处理丢失...

2019-02-09 21:58:37 1346

转载 Matlab基本操作回顾(二)——工具箱

1. 曲线拟合工具箱工具箱提供的拟合类型有： Custom Equations：用户自定义的函数类型 Exponential：指数逼近，有2种类型， a*exp(b*x) 、 a*exp(b*x) + c*exp(d*x) Fourier：傅立叶逼近，有7种类型，基础型是 a0 + a1*cos(x*w) + b1*sin(x*w) Gaussian：高斯逼...

2019-01-23 21:46:06 2653

空空如也

空空如也