自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 问答 (7)
  • 收藏
  • 关注

原创 python3 re.sub 解决missing < at position 54

re.sub中如果repl含有特殊字符,则Python只处理了\r,\n,其他字符未做处理。如果含有\g则会报错missing < at position 54解法办法1,在某些版本中,可以使用fr"{repl}",我本地win10、python3.6上可以这样处理2,使用replace,把\g换成\g,其他字符类似3,repl=repr(repl)...

2020-12-30 15:03:05 394

原创 ngram低维表示学习笔记

本文是学习N-GRAM-BASED LOW-DIMENSIONAL REPRESENTATION FOR DOCUMENT CLASSIFICATION的笔记。如果英文好的,请直接看论文。ngram是词袋模型的子类。对于提取上下文语义有重要意义,然而n很大时,维度将非常高,运算复杂度剧增。而工业界中的认为都对响应速度要求特别高。ngram低维表示能降低维度,大大提高效率。ngram简介语句...

2019-10-17 14:12:48 660

原创 nlp基础知识总结

语料匹配:主要是做相似度需要解决的问题:距离的定义方式、词义语义表征的准确性词义语义表征的准确性:词向量的性能、词向量的获取速度词向量的性能:分词的效果、词义语义的性能常用计算计算相似度的方法:基于词向量:余弦相似度、曼哈顿距离、欧几里得距离、明氏距离基于字符:编辑距离、simhash(适用于海量数据)、共有字符数基于概率统计:杰卡德相似系数基于词嵌入模型:word2vec基...

2019-10-14 10:58:58 749

原创 神经网络小记

神经网络在最近几年特别火,不管是做传统机器学习的,还是图片分类、nlp的都需要去学习了解它。只有一层隐藏层的神经网络:这时候相当于集成学习,隐藏层相当于bagging学习多个模型,输出层使用上一层的结果作为输入相当于boosting。也即模型拥有降低偏差和方差的能力。没有隐藏层的相当于感知机。没有隐藏层的网络只能处理线性的问题,不能处理非线性的问题。**通用近似原理:**如果一个神经网络拥...

2019-08-24 17:52:23 156

原创 采样小记

采样是对随机现象的模拟,基于给定的样本分布,模拟产生一个对应的事件。使用较少的样本来预估总体分布重采样,充分利用已有数据集,挖掘更多信息。自助法:进行多次随机有放回抽样,当样本量足够大时,极限上有36.8%的样本抽不到,抽到的可以作为训练集,抽不到的作为测试集,进行多次试验可以估计偏差和方差。重采样可以解决样本不均衡问题。计算机无法产生真实随机数,只能产生伪随机数。一般通过线性同余来产生。公...

2019-08-23 15:56:49 226

原创 优化算法小记

算法=模型+评估+优化算法不同的模型的模型采用不同的损失函数,不同的损失函数优化难度不同常用的损失函数:0/1 error:Loss= I(f,y),I是指示函数。简单直观;不可微,往往不能直接优化Hinge:L=max{0,1-fy}。是0/1 error的一个凸上界。往往通过优化Hinge来代替优化0/1 error。也叫代理损失函数在fy=1处不可微,不能使用梯度下降法,往往使用...

2019-08-22 15:16:13 304

原创 概率图模型小记

概率图模型:图中节点分为隐含节点、观测节点、边分为有向边和无向边。节点对应于随机变量,边对应两个节点间的依赖关系。最后基于这幅关系图获得一个概率分布。这就是概率图模型分为两大块:贝叶斯网络(有向图)和马尔科夫网络(无向图)朴素贝叶斯:由表达式可知后验概率决定了分类结果,故模型为y影响X最大熵模型:熵是不确定性的度量。最大熵模型就是选择满足约束条件下熵最大的模型。通俗来说就是对于未知的事情,我...

2019-08-09 17:57:08 370

原创 聚类小计

聚类算法是非监督算法,两大子集:数据聚类:多次聚类找到数据的最优分割(使同类样本相似度高,不同类相似度低)特征变量关联:利用各种相关系找到特征之间的关系KMeans:最常用的聚类算法核心思想:使每个样本点离所属类质心的距离之和最小算法步骤:数据预处理,归一化、剔除outlier随机初始K个质心定义代价函数:J(c,u)=1M∑iM∣∣xi−uci∣∣2J(c,u)=\frac...

2019-08-05 00:27:25 137

原创 逻辑回归、决策树以及SVM小记

逻辑回归和线性回归的异同:逻辑回归是分类问题、线性回归是回归问题。逻辑回归是算出样本属于正样本的期望,然后根据期望做判定;线性回归是求出线性方程的近似解甚至解析解θTx\theta^TxθTx逻辑回归的y是离散的,线性回归的y是连续的逻辑回归最初对特征做线性组合时,类似于线性回归,sigmoid函数可以看着把数据压缩到区间[0,1]逻辑回归可以整理为预测y为1的概率的对数几率的线性回归...

2019-07-29 18:04:46 973

原创 模型评估小记

模型评估是验证模型效果的重要手段。不同的评价指标有不同的侧重点,我们评估模型时需要选择恰当的评估指标以期体现我们真实想反馈的模型结果。常用的评价指标有:准确率、精确率、召回率、RMSE等准确率准确率是预测正确样本的占比。当样本不平衡时,准确率将不能客观反映真实情况。例如垃圾邮件分类问题中垃圾邮件占比很小,假设占比为95.这时即使我预测所有邮件都不是垃圾邮件,准确率也高达95%。显然不是我们想...

2019-07-29 02:08:11 284

原创 特征工程小记

特征和数据是结果的上限,模型只是接近结果上限的路径。特征归一化①算法结果往往偏向于数值差别大的特征,常常会对做数据无量纲化处理。②如下图,未归一化的特征方向上图形教长,使用梯度下降时,达到最优解的速度会更慢。③特征归一化大多数情况下是非常有用的,但是有的模型却不需要这样做。例如:朴素贝叶斯、决策树,他们都是概率模型,只与数据分布有关,与数值大小无关。类别特征编码除了决策树等少数模型外,...

2019-07-28 19:27:23 109

原创 集成学习

本文主要知识点:①三个诸葛亮顶一个臭皮匠——Blending②非线性融合——Stacking③bagging④adboost、随机森林、梯度提升树、xgboost、lightBGM

2019-07-13 19:53:27 489

原创 决策树

本文总结决策树。知识点包含:决策树概述、ID3、C4.5、CART回归和分类、信息熵、Gini系数、决策树剪枝

2019-06-25 16:43:34 362

原创 线性回归和概率模型(逻辑回归和朴素贝叶斯)

本篇主要讲线性回归和逻辑回归。线性回归还记得PLA吗?我们可以把他应用于分类申请信用卡的客户,以辅助决策是否发信用卡。但是仅仅决定是否给某个客户发信用卡还不够,我们还需要决定给他多少额度?像这种目标是一个连续随机变量的预测问题就是一个回归问题。线性回归即一个线性的回归问题。目标函数通常为平方损失函数。最小二乘法把常数项也当做一个特征维度,则线性回归的拟合函数可以表示为h(x)=wTxh...

2019-06-14 18:02:55 4874

原创 感知机和SVM

本篇文章主要写感知机和SVM。思路:引入感知机模型。证明线性可分数据集上感知机一定能区分数据集,即Ein=0E_{in} = 0Ein​=0,且迭代次数有限。引入梯度下降等概念,并解释为何它能起作用介绍感知机的对偶形式引出SVM的需求。引入函数间隔和几何间隔的概念用有条件解引出原始形式和对偶形式。得到KKT条件。引出SVM的对偶形式,得到支撑向量通过非线性的需求,引出kernel。证...

2019-06-11 12:59:34 2073

原创 过拟合和欠拟合及他们的可能解决办法

什么是过拟合、欠拟合?读书时,身边经常有一些学生,没日没夜的刷题,练习册上的题几乎都能背下来。但是一到考试遇到没见过的题时就不会做了。这就是过拟合。过拟合指一种现象:如果当前的假设空间存在“真”模型,学习时选择的参数过多以至于对训练集有很高的拟合能力,而对未知数据的拟合能力很差。而有另外一些学生,那些平时不怎么学,考试时自然不会。欠拟合:如果当前的假设空间存在“真”模型,学习的参数太少了,对当...

2019-06-03 18:17:19 906

原创 机器学习到底可不可行?

上一篇讲述了什么是机器学习。是不是感觉发现了新大陆?以后机器学会自己学习后是不是要统治人类的脑洞都冒出来了?但这些仅仅是我们的愿景。我们还得关心一个现实问题:机器到底能不能学习,学得好不好?人是自认为是高等生物,拥有学习能力。其他动物也是有生命的,也会发声,运动,多数通过训练形成条件反射后获得一些额外的能力,但是学习能力低下,多用来供人类玩耍,取乐。本篇主要讲解机器学习到底行不行?...

2019-05-29 23:38:52 480

原创 什么是机器学习

机器学习的动机?人们在现实世界中在越来越多的事物上输给了机器。例如计算速度。但是机器很死板,只能按照固定的程序来运作。就像编程中的硬代码。人刚出生的时候,也是懵懂无知,刚开始学习的时候也是别人给我们填充,和机器的硬代码差不多。所以我们也希望能教会机器学习、让他自己学习。从而让机器在更多人类无法做到或者做得不够好的领域发挥更大的作用。学习是什么样的一个过程?人类在刚开始学习的时候是父母教我们说...

2019-05-29 23:26:11 112

原创 个人机器学习总结汇总

陆陆续续学习机器学习好几个月了。以前的笔记都在纸质笔记本上。被鄙视了,同时听说写博客也很有益于交流。特写个博客来总结下所学内容。先占坑,把目录定好,后续补博客总结连接。由于主要看了统计学习和林轩田的课程,故里面的内容多来自于以林轩田的课程,穿插西瓜书和统计学习,辅以部分网络文章。

2019-05-29 18:13:44 458

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除