课程笔记
文章平均质量分 96
张楚岚
前石油工人,ml小学生douburu...
展开
-
ml课程:聚类概述及K-means讲解(含代码实现)
以下是我的学习笔记,以及总结,如有错误之处请不吝赐教。本文主要介绍聚类以及K均值算法的推倒过程,最后有相关代码案例。说到聚类就不得不先说说机器学习的分类。机器学习主要分为三类:监督学习:分类、回归...无监督学习:聚类、降维...强化学习。 下面这张图是机器学习python库sklearn的一个分类: 聚类的作用主要分为三个:组织数据 降维 ...原创 2018-11-15 13:32:33 · 651 阅读 · 0 评论 -
DL课程:RNN、LSTM、GRU及相关应用案例代码
以下是我的学习笔记,以及总结,如有错误之处请不吝赐教。前面学习了CNN卷积神经网络,本文主要介绍RNN循环神经网络及相关升级版。RNN循环神经网络:RNN(Recurrent Neural Network)是一类用于处理序列数据的神经网络。简单来看,把序列按时间展开结构如下:结构中: ①Xt是时间t处的输入; ②St是时间t处的“记忆”,St=f(UXt+WSt−1),f可...原创 2018-12-20 12:49:20 · 908 阅读 · 0 评论 -
爬虫课程:爬虫基础及静态网页爬虫
以下是我的学习笔记,以及总结,如有错误之处请不吝赐教本文主要介绍一些爬虫基础知识。HTTP协议:http是一个请求<->响应模式的典型范例,即客户端向服务器发送一个请求信息系,服务器来响应这个信息。在老的http版本中,每个请求都将被创建一个新的客户端->服务器的链接,在这个连接上发送请求,然后节后请求。这样的模式有一个很大的有点就是,简单,容易理解和编程实现;特也有...原创 2018-12-11 10:24:24 · 888 阅读 · 0 评论 -
NLP课程:词向量到Word2Vec理论基础及相关代码
以下是我的学习笔记,以及总结,如有错误之处请不吝赐教。词向量:NLP的发展主要有两个方向:传统方向:基于规则 现代方向:基于统计机器学习:如HMM(隐马尔可夫)、CRF(条件随机场)、SVM、LDA(主题模型)、CNN..词向量需要保证空间中分布的相似性:离散表示进阶:One-hot表示:很容易理解,即在有词的地方填充1,其他地方填充0,作为一个长向量。 B...原创 2018-12-22 01:07:04 · 503 阅读 · 0 评论 -
NLP课程:nlp基础word processing
以下是我的学习笔记,以及总结,如有错误之处请不吝赐教。自然语言处理发展:在网上看了很多文章都没有屡清楚LDA、n-gram、one-hot、word embeding、word2vec等等的关系,直到看到这篇文章:参考1要分清楚两个概念:语言模型和词的表示语言模型:分为文法语言和统计语言,我们现在常说的语言模型就是统计语言,就是把语言(词的序列)看作一个随机事件,并赋予相应的概率来...原创 2018-12-22 18:59:53 · 823 阅读 · 0 评论 -
爬虫课程:scrapy及相关应用
以下是我的学习笔记,以及总结,如有错误之处请不吝赐教。本文主要介绍Scrapy框架及相应应用代码。Scrapy基础:是一个用于爬行web站点和提取结构化数据的应用程序框架,可用于各种有用的应用程序,如数据挖掘、信息处理或历史档案,官网;scrapy结构包括:引擎(Scrapy Engine) 、调度器(Scheduler) 、下载器(Downloader) 、蜘蛛(Spide...原创 2018-12-12 00:36:46 · 227 阅读 · 0 评论 -
ml课程:FM因子分解机介绍及相关代码
以下是我的学习笔记,以及总结,如有错误之处请不吝赐教。FM(factorization machines)表示因子分解机,是由Steffen Rendle提出的一种基于矩阵分解的机器学习算法。目前,被广泛的应用于广告预估模型中,相比LR而言,效果更好。主要目标是:解决数据稀疏的情况下,特征怎样组合的问题,因此该算法主要用于组合特征等特征工程。原理推倒:(参考1、参考2)模型方程:基本线...原创 2018-12-18 10:09:01 · 1078 阅读 · 0 评论 -
NLP课程:Word2vec到FastText
以下是我的学习笔记,以及总结,如有错误之处请不吝赐教。之前的文章主要介绍了Word2vec的原理及应用,本文主要介绍从word2vec到FastText的发展。NLP四大问题:主要用到的模型有:分类任务:文本分类/情感计算(常用模型CNN、朴素贝叶斯(伯努利贝叶斯、多项式贝叶斯、高斯分布贝叶斯参考)、svm). 序列标注:分词/POS Tag/NER/语义标注;(常用模型:RNN...原创 2018-12-25 09:18:12 · 957 阅读 · 2 评论 -
数据结构课程:算法初步
算法主要学习的问题:穷举:求N个数的全排列、八皇后问题 分而治之:二分查找、归并排序 贪心:最小生成树Prim,Kruskal 动态规划:背包、士兵路径复杂度是算法的核心问题,主要分为时间和空间,使用大O记号(忽略系数)。时间:指占用内存字节数 空间:指空间可以在利用 时空可以互换,通过Hush表主要有以下几个常见取值:O(1):基本运算,加减乘除,取模,寻址 O(lo...原创 2019-02-08 16:24:49 · 204 阅读 · 0 评论 -
数据结构课程:必知必会的数据结构(队栈、哈希表、布隆过滤器)
栈和队列基础:定义:存放数据的线性表。 操作:入栈/队列、出栈/队列、判断满/空。 空间复杂度:O(n) 单次操作时间复杂度:O(1) 区别:栈是先进后出(FILO, First In Last Out),队列是先进先出(FIFO, First In First Out),具体如下图: 栈和队列的实现:数组和链表皆可(线性表) 指针:(辅助变量),①栈顶/底指针,②队头/...原创 2019-01-03 09:32:36 · 284 阅读 · 0 评论 -
数据结构课程:树和堆
二叉树基础:树的定义:树(英语:Tree)是一种无向图(undirected graph),其中任意两个顶点间存在唯一一条路径。或者说,只要没有回路的连通图就是树。 二叉树(英语:Binary tree)是每个节点最多只有两个分支(不存在分支度大于2的节点)的树结构。通常分支被称作“左子树”和“右子树”。二叉树的分支具有左右次序,不能颠倒。 完全二叉树:叶节点只能出现在最下层和次下层,并且...原创 2019-01-03 17:16:29 · 220 阅读 · 0 评论 -
NLP课程:Encoder-Decoder框架、Attention、Transformer、ELMO、GPT、Bert学习总结
Encoder-Decoder框架:可以把它看作适合处理由一个句子(或篇章)生成另外一个句子(或篇章)的通用处理模型。对于句子对<Source,Target>,我们的目标是给定输入句子Source,期待通过Encoder-Decoder框架来生成目标句子Target。Encoder顾名思义就是对输入句子Source进行编码,将输入句子通过非线性变换转化为中间语义表示C:...原创 2019-01-31 11:52:48 · 9394 阅读 · 0 评论 -
DL课程:CNN及相关应用案例代码
以下是我的学习笔记,以及总结,如有错误之处请不吝赐教。前面介绍了MLP、RNN以及相关案例,本文主要介绍一种新的神经网络:CNN卷积神经网络。CNN卷积神经网络:卷积神经网络相比RNN多了很多层级,主要包括以下几个层次:input layer数据输入层、conv卷积计算层、Activation layer激励层、pooling layer池化层、FC layer全连接层、Batch N...原创 2018-12-20 00:38:03 · 507 阅读 · 0 评论 -
DL课程:MLP、DNN、Wide&deep model及相关案例代码
以下是我的学习笔记,以及总结,如有错误之处请不吝赐教。线性分类和逻辑回归两种简单的模型大家应该都知道:(ml课程:线性回归、逻辑回归入门(含代码实现))机器学习中,分类和回归常用损失函数大家也都熟悉:(ml课程:机器学习算法串讲及相关常见问题总结)神经网络:一般神经网络结构主要包括:输入层、隐层、输出层。逻辑回归也可以表示为单层的神经元“感知器”:单个的神经元可...原创 2018-12-19 21:40:51 · 1392 阅读 · 0 评论 -
ml课程:机器学习算法串讲及相关常见问题总结
以下是我的学习笔记,以及总结,如有错误之处请不吝赐教。机器学习的两条路线:线性模型:逻辑回归-SVM-MLP(多层感知器) 树模型:随机森林-XGBT-lightGBM问题1:机器学习算法有计算型和规则型这两类的算法,请问这两类下各自的都有哪些算法,以及您对这个分类思路的理解?计算型:LR逻辑回归、SVM支持向量机、NN神经元网络等通过计算确定参量,基于阈值和得分向量进行分类而达到...原创 2018-12-04 01:20:29 · 576 阅读 · 0 评论 -
ml课程:线性回归、逻辑回归入门(含代码实现)
以下是我的学习笔记,以及总结,如有错误之处请不吝赐教。本文主要介绍简单的线性回归、逻辑回归先关推倒,以及案例代码。昨天做项目发现K-means都忘了,想想之前很多基础都忘了,于是决定重新开始学一遍ml的基础内容,顺便记录一下,也算是梳理自己的知识体系吧。机器学习:目前包括有监督、无监督、强化学习三个大的方向,昨天说过了,就不详细展开。几个基本概念:数据集,样本(samples)...原创 2018-11-16 23:04:07 · 617 阅读 · 0 评论 -
ml课程:最大熵与EM算法及应用(含代码实现)
以下是我的学习笔记,以及总结,如有错误之处请不吝赐教。本文主要介绍最大熵模型与EM算法相关内容及相关代码案例。关于熵之前的文章中已经学习过,具体可以查看:ml课程:决策树、随机森林、GBDT、XGBoost相关(含代码实现),补充一些基本概念:信息量:信息的度量,即一件事情发生的概率。那么熵既可以表示为信息量的期望,也就是。联合熵(joint entropy):是联合概率分布或...原创 2018-11-22 10:46:57 · 747 阅读 · 0 评论 -
ml课程:特征工程、面试题及相关案例代码
以下是我的学习笔记,以及总结,如有错误之处请不吝赐教。这篇文章主要介绍机器学习特征工程相关的内容,以及《百面机器学习》中相关高频面试题内容,最后还有相关的案例代码。特征工程(Feature engineering):是对原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用。从本质上来讲,特征工程是一个表示和展现数据的过程。在实际工作中,特征工程旨在去除原始数据中的杂质和...原创 2018-11-24 12:50:37 · 1923 阅读 · 2 评论 -
ml课程:概率图模型—贝叶斯网络、隐马尔可夫模型相关(含代码实现)
以下是我的学习笔记,以及总结,如有错误之处请不吝赐教。本文主要介绍机器学习中的一个分支——概率图模型、相关基础概念以及朴素贝叶斯、隐马尔可夫算法,最后还有相关代码案例。说到机器学习的起源,可以分为以下几个派别:连接主义:又称为仿生学派(bionicsism)或生理学派(physiologism),其主要原理为神经网络及神经网络间的连接机制与学习算法。比如今天很火的:tensorflow...原创 2018-11-22 23:36:19 · 6889 阅读 · 0 评论 -
ml课程:SVM相关(含代码实现)
以下是我的学习笔记,以及总结,如有错误之处请不吝赐教。本文主要介绍svm的创始人Vapnik‘s如何一步一步构建出这个经典算法模型的,同时也可以给我们以后算法之路提供一个思路,即使你对优化等数学方法不熟悉,依然可以创造出很好的算法。下svm关键的几个idea:KEY IDEA 1:支持向量机最关键的一个假设是我们在分类过程中,最重要的是找到一个决策边界,而且我们希望这个决策边界泛化能力...原创 2018-11-19 23:54:37 · 466 阅读 · 0 评论 -
ml课程:决策树、随机森林、GBDT、XGBoost相关(含代码实现)
以下是我的学习笔记,以及总结,如有错误之处请不吝赐教。基础概念:熵Entropy:是衡量纯度的一个标准,表达式可以写为:信息增益Information Gain:熵变化的一个量,表达式可以写为:信息增益率Gain Ratio:信息增益的变化率,表达式可以写为:基尼系数Gini Index:Gini(D)越小,数据集D的纯度越高,具体表达式如下:实际上基尼...原创 2018-11-18 00:28:23 · 852 阅读 · 0 评论 -
ml课程:模型融合与调优及相关案例代码
以下是我的学习笔记,以及总结,如有错误之处请不吝赐教。这篇文章主要介绍模型融合及参数调优相关内容,以及《百面机器学习》上关于模型评估、集成相关内容,最后还有相关案例代码。先放一张大家都比较熟悉的图:这是模型选择的一个流程图,可以作为相关的参考。模型评估:评估指标:在模型评估过程中,分类问题、排序问题、回归问题往往需要使用不同的指标进行评估。模型评估主要有以下几个指标:准确率...原创 2018-11-25 00:46:14 · 2209 阅读 · 0 评论 -
ml课程:Sklearn工具库学习及相关案例代码
以下是我的学习笔记,以及总结,如有错误之处请不吝赐教。本文主要介绍sklearn工具库相关使用,以及部分内容解释,最后有相关案例代码。首先看一张图,这张图是构建机器学习系统的一般流程:还记得之前的一篇文章中有一张sklearn机器学习模型选择流程的一张图与此类似:没看过的请看过来最常用sklearn部分:使用sklearn库我们最常用到的是三个部分,分别是:scikit...原创 2018-11-27 11:05:40 · 235 阅读 · 0 评论 -
ml课程:XGBoost和lightGBM工具库学习及相关案例代码
以下是我的学习笔记,以及总结,如有错误之处请不吝赐教。本文主要介绍kaggle大杀器xgboost和lightgbm两个工具库的简单使用,以及相关案例代码。首先回忆一下boosting原理,以及由boosting衍生出来的算法:Adaboost和GBDT以及后面更强的xgboost,忘记的同学可以查阅我之前的文章:ml课程:决策树、随机森林、GBDT、XGBoost相关(含代码实现),除此...原创 2018-11-28 00:22:26 · 503 阅读 · 0 评论 -
ml课程:主题模型LDA及相关案例代码
以下是我的学习笔记,以及总结,如有错误之处请不吝赐教。基础知识:主题模型:简单来说就是由文档生成相应的主题,它可以将⽂文档集中每篇⽂文档的主题按照概率分布的形式,类似下图这样: 贝叶斯模型:贝叶斯公式大家都知道,不知道的可以出门左转:ml课程:概率图模型—贝叶斯网络、隐马尔可夫模型相关(含代码实现),贝叶斯模型就是运用贝叶斯公式得到的一种主题模型。 共轭分布与共轭先验:后验概...原创 2018-12-01 01:24:16 · 1018 阅读 · 0 评论 -
ml课程:推荐系统原理及相关案例代码
以下是我的学习笔记,以及总结,如有错误之处请不吝赐教。本文主要介绍推荐系统常用的几种算法,以及相关案例代码。基础知识:推荐系统数学定义:设C为全体用户集合,设S为全部商品/推荐内容集合,设u是评判把si推荐cj的好坏评判函数,推荐是对于c∈C,找到s∈S,使得u最大,即:推荐系统结构:推荐系统的意义是在信息过载的情况下,根据用户的相关action来推荐items。推荐系...原创 2018-11-28 21:37:11 · 1277 阅读 · 0 评论 -
数据结构课程:图论
图基础:定义:描述事物之间的关系。 包括:节点集V={V1,V2......,Vn},边集合E={e1,e2,......,em},其中ei=(vi,vi‘) G=<V,E> 包括有向图和无向图 空间复杂度一般为:O(n+m)或O(n2) 主要应用包括:邻接矩阵,邻接表 图的存储结构: 1、邻接矩阵表示法: 如果 第 1个点和第 3个点 相连则 matrix...原创 2019-02-12 17:27:52 · 477 阅读 · 0 评论