2018年06月_赵小越

原创对于单条短文本数据的分类（噪声数据过滤）

似乎还没在语义方向来进行深入处理，这一年一直往结构特征的角度来进行处理，但真真的觉得这还是一个死胡同，没办法啊，所以叫人在江湖身不由己。哈哈。今天新思考了一个点，就是通过统计的角度，来判断词性之间的搭配关系。首先，我先讲一下思路，我只是进行了很粗略的统计，甚至都是暴力的手段，通过统计二元词性的搭配的问题，很粗略的判断最可能出现的二种词性的搭配问题。 ...

2018-06-27 14:33:32 1707

原创 python中的staticmethod和classmethod方法

哎，要学习的东西，真的又多又杂，这不，又再一次转场学习python语言。 python中的3中定义类的方法，常规的那一种，@classmethod修饰方法，@staticmethod修饰方法。首先，我们说一下常规定义类的方法，...

2018-06-25 19:53:40 473

原创 python中的中文编码的问题汇总

编码，真的可以说是一个大坑，为了避免这个大坑，确实需要从原理上来理解，然后解决问题的时候，一一对问题进行排查即可，实在不行，真的就是print类型出来，看到底是什么问题。首先，在python2环境下，默认的编码格式是ASCII编码，在没有修改编码格式的时候，在.py文件中，无法正常的打印汉字，并且在读取中文的时候也会出错。这个时候报错信息为 File "D:/work_...

2018-06-25 11:19:51 321

原创 EM算法的学习

EM算法是一种迭代算法，用于求含有隐变量的概率模型参数的极大似然估计，用简单粗暴的语言来解释，就是求参数的值，也就是求解的一个过程，但参数的求解中，与普通的简单的参数的求解不同，是一种带有隐变量(hidden variable)的模型的参数求解的方法。来解读EM算法，首先是E，期望（Expectation），其次是M，最大（Maximization），所以这一算法称为期望极大算法(...

2018-06-24 16:02:38 796 2

原创集成学习的学习

首先，第一点，说明什么是集成学习，就是把多个分类的方法集中起来，然后集中大家的智慧来进行判断。在集成学习中，我们主要说的是三种框架：boosting, bagging, stacking。具体介绍的为集成学习方法的介绍。新一轮的学习中需要牢记的点：提升方法(boosting)，是一种常用的统计学习方法，是判别模型，最后得到...

2018-06-23 11:41:14 331

原创自然语言处理数学基础--《自然语言理解》笔记

自然语言处理的二种的基本方法：基于规则的分析方法，基于语料库的统计方法。这一部分，主要是概率论基础，这一部分因为平时用的比较多，我就直接把这部分的讲义传网盘算了。看这一部分的内容的同时，发现自己的知识缺失点，主要在统计检验这个地方。...

2018-06-20 17:33:35 563

原创自然语言处理综述--《自然语言理解》笔记

有时候觉得很好笑，每天说自己做自然语言处理，可真正，自然语言处理到底是做什么的，我也没有搞明白，不透彻，整个背景还是空缺的，现在对这部分的知识点进行弥补。看的是宗成庆老师的这本书的讲义。我们说的自然语言处理（Nature language processing,NLP），是计算语言学(Computational Linguistics)的应用...

2018-06-20 17:07:01 3680 1

原创句法分析的学习

句法分析(Sentence Parsing)有二层含义，一是指根据文法对一个句子进行分析，建立这个句子的语法树，即文法分析(Syntactic Parsing)；二是指对一个句子中各成分的语义进行分析，得到对这个句子的语义的一种描述，也就是语义树，即语义分析(Semantic Parsing)。【文法分析】背景：之前的套路，基于规则的方法，那...

2018-06-20 16:12:02 818

原创 SVM的学习

SVM重新梳理：支持向量机(Support vector machines,SVM)，是一种二类分类的模型，是一种判别模型，得到决策函数，来进行判断。SVM的基本模型是定义在特征空间上的间隔最大的线性分类器，SVM可以看作是感知机的高级版本，因为感知机只要求正确的对线性可分的数据进行分离就可以，但SVM则要求最大的程度的对其进行分离，而且对...

2018-06-19 11:16:46 327 1

原创优化算法的学习

对于机器学习，优化算法，是指求解最优化问题的方法，这对于解决问题至关重要，什么时候用什么方法，以及如何推导，现记录如下，以防止以后忘记，都用大白话来说，尤其需要掌握其精髓。最优化问题，大概可以分为二类，一类是有无约束条件的优化问题，一类是有约束问题的优化。在有约束问题的优化中，我们对于约束分类为等式约束和不等式约束。依次介绍。对于无约束问题，我...

2018-06-16 17:18:05 417

原创最大熵模型的学习

最新思考：最大熵模型(maximum entropy model)，由最大熵原理推导实现，是一种判别模型，也是利用条件概率P(Y|X)来进行判断。要想知道最大熵模型，首先需要从最大熵定理来说起。香农爸爸真的是强，对于通信专业的我们从本科就沐浴在了香农爸爸的学识中，熵是一种什么东西呢，他是对于不确定性的一种度量的手段，表明了蕴含信息...

2018-06-15 10:58:53 651 1

原创逻辑斯蒂回归的学习

逻辑回归，虽然叫做回归问题，但其确实不是用于回归的场景，而是应用于分类的场景中。逻辑回归可以用于二分类，也可以用于多分类中。是一种判别模型，由条件概率分布来确定。逻辑斯蒂回归(logistic regression)，是一种对数线性模型，常用于分类。是判别模型，由条件概率分布P(Y|X)来确定。逻辑斯蒂回归的数学基础是逻辑斯蒂分...

2018-06-14 17:14:59 1812

原创决策树的学习

决策树，从名字上看，就知道其模型的结构为树结构，决策树既可以用于分类，也可以用于回归之中。在分类问题中，我们可以认为其是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。在学习过程中，利用训练数据和损失函数最小化的原则来构建决策树模型，在分类过程，利用模型对新数据进行分类。直接构建模型，说明决策树是一个判别模型。在学习过程，决策树有主...

2018-06-14 09:03:21 1093

原创朴素贝叶斯法的学习

朴素贝叶斯（navie Bayes）法，朴素是最高级的词汇，方法真的可以说简单而又高级了。贝叶斯定理，可以说奠定了很多概率研究的基础，通过转换，把因果颠倒，可以求得概率，可以说很amazing的一件事了。对于朴素贝叶斯而言，除了贝叶斯定理以外，需要注意的一个假设前提就是，特征条件独立假设，这个假设是说，A特征和B特征是独立的，P(A,B|w）=P(A|w)P(B|w）。 ...

2018-06-12 17:25:38 209

原创 k近邻的学习

K近邻法（k-nearest neightbor, K-NN）是一种基本分类与回归的方法。K近邻法的输入为实例的特征向量，对应于特征空间的点，输出为类别，可以是二类，也可以是多类。对给定的实例，根据给定的一个训练集的K个最近邻的类别来多数表决来进行预测。K近邻法不具有显示的学习过程，而是通过训练数据对特征空间的划分来作为模型，实现判别。是一种判别模型。对于K近邻而言，最重要的三个...

2018-06-11 21:16:42 1268

原创感知机的学习

感知机（perceptron）,是一个二分类的线性分类模型。输入空间为欧式空间，输出空间为{1，-1}, 属于判别模型，得到的决策函数，决策函数的物理模型是一个分离超平面，将欧式空间划分为+1,-1二个平面。模型的表示：F(x) = sign(w*x+b) 假设空间：分离超平面的集合；{f|f(x)=sign(w*x+b)} ，其中w*x+b=0对应于超平面S（分离...

2018-06-11 17:32:26 262

原创统计学习中易混淆概念区分

在本文中，主要记录统计学习方法中，容易被混淆的几个概念的区分和解析。（会不断的进行后续更新）第一，最大似然估计（Maximum likelihood estimation,MLE）和最大后验概率估计（Maximum a posteriori estimation,MAP）二者的基础都是贝叶斯公式推导出来的P(theta|x) = (P(x|thata)P(theta))/P(x)其...

2018-06-11 15:41:08 570

原创统计学习方法概论章节思考和笔记

前一个月才学习了李航的这本统计学习方法，然后，前二天再回去看的时候，已经忘的差不多了，又得重新来学习一遍嘎。之前得笔记是在纸上写得，那这一次的思考和记录就用电子版的把，加入自己的理解的精简版笔记。数据之中蕴含很多的意义，我们通过利用概率统计的方式来将规律挖掘和表示出来，然后对数据进行预测的过程。我们现在接触的机器学习主要指的是统计机器学习。统计机器学习的基本假设是同类数...

2018-06-11 10:27:05 185

有时，我觉得靠自己的双手，可以改变很多，但其实，真的，有时真的是视野决定你努力的天花板。智商上的差距有但很少，但更多的时候却是视野上的，平台上的差距，但很多办法你没有办法改变，能改变的是，不断的接触形形色色的人，发现不同的人的视野，不同人的平台，有羡慕，也有对自己的态度的改变，所以，与优秀的人多交往，多看多学，在自己的能力范围，尽量做到自己能做到的最好，这就是此阶段需要做的事。凭借着自己勤劳的双...

2018-06-02 15:16:21 238

原创关键词抽取模型得总结

对于文本分析而言，关键词是很重要的一个分析成分，对于抽取关键词而言，一般采用的有四种方式。首先，对于TF-IDF，TF指的是词频， IDF指的是逆文档频率，一般是二维矩阵，行代表的是文档，列代表的是单词。优点是可以很快的提炼出代表性的单词，一般而言，精度满足需求，但主要的缺陷在于应用与分类中，如何应用是一个问题。在某一类文本中，出现词频高的词不仅仅是停止词之类的，词频高的词也可以很好的代表这一类...

2018-06-01 20:46:43 1706

赵小越的博客