自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 资源 (1)
  • 收藏
  • 关注

原创 对于单条短文本数据的分类(噪声数据过滤)

         似乎还没在语义方向来进行深入处理,这一年一直往结构特征的角度来进行处理,但真真的觉得这还是一个死胡同,没办法啊,所以叫人在江湖身不由己。哈哈。今天新思考了一个点,就是通过统计的角度,来判断词性之间的搭配关系。          首先,我先讲一下思路,我只是进行了很粗略的统计,甚至都是暴力的手段,通过统计二元词性的搭配的问题,很粗略的判断最可能出现的二种词性的搭配问题。      ...

2018-06-27 14:33:32 1707

原创 python中的staticmethod和classmethod方法

          哎,要学习的东西,真的又多又杂,这不,又再一次转场学习python语言。          python中的3中定义类的方法,常规的那一种,@classmethod修饰方法,@staticmethod修饰方法。         首先,我们说一下常规定义类的方法,...

2018-06-25 19:53:40 473

原创 python中的中文编码的问题汇总

       编码,真的可以说是一个大坑,为了避免这个大坑,确实需要从原理上来理解,然后解决问题的时候,一一对问题进行排查即可,实在不行,真的就是print类型出来,看到底是什么问题。       首先,在python2环境下,默认的编码格式是ASCII编码,在没有修改编码格式的时候,在.py文件中,无法正常的打印汉字,并且在读取中文的时候也会出错。这个时候报错信息为 File "D:/work_...

2018-06-25 11:19:51 321

原创 EM算法的学习

        EM算法是一种迭代算法,用于求含有隐变量的概率模型参数的极大似然估计,用简单粗暴的语言来解释,就是求参数的值,也就是求解的一个过程,但参数的求解中,与普通的简单的参数的求解不同,是一种带有隐变量(hidden variable)的模型的参数求解的方法。来解读EM算法,首先是E,期望(Expectation),其次是M,最大(Maximization),所以这一算法称为期望极大算法(...

2018-06-24 16:02:38 796 2

原创 集成学习的学习

            首先,第一点,说明什么是集成学习,就是把多个分类的方法集中起来,然后集中大家的智慧来进行判断。在集成学习中,我们主要说的是三种框架:boosting, bagging, stacking。具体介绍的为集成学习方法的介绍。新一轮的学习中需要牢记的点:        提升方法(boosting),是一种常用的统计学习方法,是判别模型,最后得到...

2018-06-23 11:41:14 331

原创 自然语言处理数学基础--《自然语言理解》笔记

        自然语言处理的二种的基本方法:基于规则的分析方法,基于语料库的统计方法。        这一部分,主要是概率论基础,这一部分因为平时用的比较多,我就直接把这部分的讲义传网盘算了。看这一部分的内容的同时,发现自己的知识缺失点,主要在统计检验这个地方。...

2018-06-20 17:33:35 563

原创 自然语言处理综述--《自然语言理解》笔记

         有时候觉得很好笑,每天说自己做自然语言处理,可真正,自然语言处理到底是做什么的,我也没有搞明白,不透彻,整个背景还是空缺的,现在对这部分的知识点进行弥补。          看的是宗成庆老师的这本书的讲义。         我们说的自然语言处理(Nature language processing,NLP),是计算语言学(Computational Linguistics)的应用...

2018-06-20 17:07:01 3680 1

原创 句法分析的学习

         句法分析(Sentence Parsing)有二层含义,一是指根据文法对一个句子进行分析,建立这个句子的语法树,即文法分析(Syntactic Parsing);二是指对一个句子中各成分的语义进行分析,得到对这个句子的语义的一种描述,也就是语义树,即语义分析(Semantic Parsing)。         【文法分析】          背景:之前的套路,基于规则的方法,那...

2018-06-20 16:12:02 818

原创 SVM的学习

        SVM重新梳理:       支持向量机(Support vector machines,SVM),是一种二类分类的模型,是一种判别模型,得到决策函数,来进行判断。SVM的基本模型是定义在特征空间上的间隔最大的线性分类器,SVM可以看作是感知机的高级版本,因为感知机只要求正确的对线性可分的数据进行分离就可以,但SVM则要求最大的程度的对其进行分离,而且对...

2018-06-19 11:16:46 327 1

原创 优化算法的学习

         对于机器学习,优化算法,是指求解最优化问题的方法,这对于解决问题至关重要,什么时候用什么方法,以及如何推导,现记录如下,以防止以后忘记,都用大白话来说,尤其需要掌握其精髓。         最优化问题,大概可以分为二类,一类是有无约束条件的优化问题,一类是有约束问题的优化。在有约束问题的优化中,我们对于约束分类为等式约束和不等式约束。依次介绍。         对于无约束问题,我...

2018-06-16 17:18:05 417

原创 最大熵模型的学习

        最新思考:         最大熵模型(maximum entropy model),由最大熵原理推导实现,是一种判别模型,也是利用条件概率P(Y|X)来进行判断。要想知道最大熵模型,首先需要从最大熵定理来说起。         香农爸爸真的是强,对于通信专业的我们从本科就沐浴在了香农爸爸的学识中,熵是一种什么东西呢,他是对于不确定性的一种度量的手段,表明了蕴含信息...

2018-06-15 10:58:53 651 1

原创 逻辑斯蒂回归的学习

        逻辑回归,虽然叫做回归问题,但其确实不是用于回归的场景,而是应用于分类的场景中。逻辑回归可以用于二分类,也可以用于多分类中。是一种判别模型,由条件概率分布来确定。       逻辑斯蒂回归(logistic regression),是一种对数线性模型,常用于分类。是判别模型,由条件概率分布P(Y|X)来确定。        逻辑斯蒂回归的数学基础是逻辑斯蒂分...

2018-06-14 17:14:59 1812

原创 决策树的学习

          决策树,从名字上看,就知道其模型的结构为树结构,决策树既可以用于分类,也可以用于回归之中。在分类问题中,我们可以认为其是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。在学习过程中,利用训练数据和损失函数最小化的原则来构建决策树模型,在分类过程,利用模型对新数据进行分类。直接构建模型,说明决策树是一个判别模型。在学习过程,决策树有主...

2018-06-14 09:03:21 1093

原创 朴素贝叶斯法的学习

        朴素贝叶斯(navie Bayes)法,朴素是最高级的词汇,方法真的可以说简单而又高级了。贝叶斯定理,可以说奠定了很多概率研究的基础,通过转换,把因果颠倒,可以求得概率,可以说很amazing的一件事了。 对于朴素贝叶斯而言,除了贝叶斯定理以外,需要注意的一个假设前提就是,特征条件独立假设,这个假设是说,A特征和B特征是独立的,P(A,B|w)=P(A|w)P(B|w)。   ...

2018-06-12 17:25:38 209

原创 k近邻的学习

        K近邻法(k-nearest neightbor, K-NN)是一种基本分类与回归的方法。K近邻法的输入为实例的特征向量,对应于特征空间的点,输出为类别,可以是二类,也可以是多类。对给定的实例,根据给定的一个训练集的K个最近邻的类别来多数表决来进行预测。K近邻法不具有显示的学习过程, 而是通过训练数据对特征空间的划分来作为模型,实现判别。是一种判别模型。对于K近邻而言,最重要的三个...

2018-06-11 21:16:42 1268

原创 感知机的学习

    感知机(perceptron),是一个二分类的线性分类模型。输入空间为欧式空间,输出空间为{1,-1}, 属于判别模型,得到的决策函数,决策函数的物理模型是一个分离超平面,将欧式空间划分为+1,-1二个平面。     模型的表示:F(x) = sign(w*x+b)   假设空间:分离超平面的集合;{f|f(x)=sign(w*x+b)}  ,其中w*x+b=0对应于超平面S(分离...

2018-06-11 17:32:26 262

原创 统计学习中易混淆概念区分

在本文中,主要记录统计学习方法中,容易被混淆的几个概念的区分和解析。(会不断的进行后续更新)第一,最大似然估计(Maximum likelihood estimation,MLE)和最大后验概率估计(Maximum a posteriori estimation,MAP)二者的基础都是贝叶斯公式推导出来的P(theta|x) = (P(x|thata)P(theta))/P(x)其...

2018-06-11 15:41:08 570

原创 统计学习方法概论章节思考和笔记

       前一个月才学习了李航的这本统计学习方法,然后,前二天再回去看的时候,已经忘的差不多了,又得重新来学习一遍嘎。之前得笔记是在纸上写得,那这一次的思考和记录就用电子版的把,加入自己的理解的精简版笔记。       数据之中蕴含很多的意义,我们通过利用概率统计的方式来将规律挖掘和表示出来,然后对数据进行预测的过程。我们现在接触的机器学习主要指的是统计机器学习。统计机器学习的基本假设是同类数...

2018-06-11 10:27:05 185

原创 态度的转变

 有时,我觉得靠自己的双手,可以改变很多,但其实,真的,有时真的是视野决定你努力的天花板。智商上的差距有但很少,但更多的时候却是视野上的,平台上的差距,但很多办法你没有办法改变,能改变的是,不断的接触形形色色的人,发现不同的人的视野,不同人的平台,有羡慕,也有对自己的态度的改变,所以,与优秀的人多交往,多看多学,在自己的能力范围,尽量做到自己能做到的最好,这就是此阶段需要做的事。凭借着自己勤劳的双...

2018-06-02 15:16:21 238

原创 关键词抽取模型得总结

对于文本分析而言,关键词是很重要的一个分析成分,对于抽取关键词而言,一般采用的有四种方式。首先,对于TF-IDF,TF指的是词频, IDF指的是逆文档频率,一般是二维矩阵, 行代表的是文档,列代表的是单词。优点是可以很快的提炼出代表性的单词,一般而言,精度满足需求,但主要的缺陷在于应用与分类中,如何应用是一个问题。在某一类文本中,出现词频高的词不仅仅是停止词之类的,词频高的词也可以很好的代表这一类...

2018-06-01 20:46:43 1706

剑指offer题解

集合了个人及大家的智慧,剑指offer的python实现及各类实现的总结。

2018-09-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除