- 博客(22)
- 收藏
- 关注
转载 腾讯面试准备NLP
NLP领域划分:1.句法语义分析:分词,词性标记,命名实体识别。2.信息抽取3.文本挖掘:文本聚类,情感分析,基于统计。4.机器翻译:基于规则,基于统计,基于神经网络。5.信息检索6.问答系统7.对话系统建议1:如何在NLP领域快速学会第一个技能?我的建议是:找到一个开源项目,比如机器翻译或者深度学习的项目。理解开源项目的任务,编译通过该项目发布的示范程序...
2018-03-28 21:15:18 5445 2
原创 模式识别第五课
2.2产生式与判别式模式几个简单的图模型,隐马尔可夫模型(HMM)作业:写产生式模式和判别式模型,逻辑回归2.2.1分类模型 贝叶斯(产生)+模拟回归(判别) 单个类的标签进行预测2.2.2序列(sequence)模型HMM for NER 命名实体识别 HMMS 自然语言处理中的词性标注2.2.3 比较naive 贝叶斯假设,有两个做法来让产生式模型包含依赖关系三个优点:对于处理隐含变...
2018-03-26 21:51:23 308
原创 nlp讨论班3
词窗分析与反向传播机器学习的重要问题:分类 softmax归一化最好为0,p(y|x)=-log(...),最大化。 H(p,q)=H(p)+正则 减少过拟合重新训练:取决于你是否有大的训练集。机器学习:核心y=f(x)1.data2.model(p(y|x)3.准则、极大似然(调参数) 4.优化,梯度方法(随机,批量)数值优化optimize5.evaluati...
2018-03-25 10:50:00 244
原创 编译原理第四章(一)
第四章 语法分析一类是自上而下分析法,一类是自下而上分析法。LL(1)分析法:左递归的消除消除回溯,提左因子终结首符集FIRST(a),跟随符号集FOLLOW(A)文法G满足(1)不含左递归(2)FIRST不相交(3)FIRST和FOLLOW不相交。->LL(1)文法...
2018-03-24 21:27:23 188
原创 模式识别第三章
第三章 条件随机场结构化预测:条件随机场的概率方法定义:1.预测多个互相依赖的变量2.x->y={y0,y1...yT}以词性标注为例,ys表示s处的词性,xs表示s处的各种信息。结构化预测:每个位置s做一个独立的分类器。(复杂的依赖,复杂的结构)表示依赖关系:图模型,因子化等价于条件独立性。产生式的图模型,判别式的图模型(条件随机场CRF)CRF工具包建立模型(modeling)图模型:贝...
2018-03-24 20:40:22 647
原创 编译原理第三章(二)
第三章 词法分析3.3.3非确定有限自动机(NFA)不同:初态集 定义:对于任何两个有限自动机M和M’,如果L(M)=L(M‘),则称M与M‘等价。对于每个NFA,存在DFA。证明算法(重点!!!)1.NFA M, 对M的状态转换图进行改造。三条规则2.把上述NFA确定化,采用子集法。I,Ia,Ib3.3.4正规文法与有限自动机正规文法G,有限自动机M L(G)=L(M),则等价。3.3.5正规式...
2018-03-16 14:01:31 351
原创 模式识别边肇祺第二章(二)
第二章(二)2.2后面部分,2.3,2.42.22.2.3在限定一类错误率条件下使另一类错误率为最小的两类别决策拉格朗日2.2.4最大最小决策2.2.5序贯分类方法2.2.6分类器设计1)多类情况:判别函数,决策面方程,分类器设计2)两类情况2.3正态分布时的统计决策物理上的合理性,数学上比较简便。2.3.1正态分布概率密度函数的定义及性质1.单变量正态分布2.多元正态分布的性质(u和∑决定,等密...
2018-03-16 14:01:20 489
原创 模式识别第二章(二)
第2章 贝叶斯决策理论(二)1.the normal densitymultivariate normal density正态分布的性质:1.u,∑唯一决定分布N2.等密度点的轨迹为一个超椭球面3.分量的不相关性=独立性4.边缘分布与条件分布是正态的5.线性变换的正态性6.线性组合的正态性2.discriminant funtions for the normal densitydecision ...
2018-03-15 16:27:40 468
原创 nlp讨论班1和2
1.nlp概述。2.词法分析。词向量核心思想:用周围的词,来表示该词的意思。重点:word2vec概率p,语法和语义的约束求最大似然(两个公式,softmax)表示一个词:方案1:onehot(无法看出相似度)2.贡献矩阵language model 解决词向量(链式法)SG,CBOW提高效率:1.负采样 2.SGD随机如何评估一个词好坏?1、语义相似度(人为和跑出来的结果进行比较) 2、...
2018-03-15 15:28:24 233
原创 算法面试常考系列排序
排序问题在算法面试中最常见的就是排序问题了。之前就经常听学长学姐们说去面试问到排序题,我个人面试的不多,但是去一家小公司面试也遇到了算法题。题目如下:对{-1,1,1,1,-1,-1...,1,-1}这一序列排序,用最少的时间和空间复杂度。从左边开始看到1,从右边开始看到-1,则交换。最简单的就是冒泡排序和选择排序。复杂度比较高,都O(n^2)。用的最多的是快排(O(nlogn)),归并也是一样的...
2018-03-09 20:03:22 226
原创 互联网公司面试系列基本常识
1.以太网线最长多少?以太网络使用CSMA/CD(载波监听多路访问及冲突检测)技术,并以10M/S的速率运行在多种类型的电缆上。一般100m,最长3000m2.HTTP的端口号是多少?代理服务器常用以下端口:(1). HTTP协议代理服务器常用端口号:80/8080/3128/8081/9080(2). SOCKS代理协议服务器常用端口号:1080(3). FTP(文件传输)协议代理服务器常用端口...
2018-03-09 11:24:45 1298
原创 模式识别边肇祺第二章(一)
第二章贝叶斯决策理论2.1,2.2.1,2.2.22.1引言贝叶斯(Bayes)决策理论方法是统计模式识别中的一个基本方法,用这个方法进行分类时要求:(1)各类别的总体概率分布是已知的;(2)要决策分类的类别数是一定的。2.2几种常用的决策规则2.2.1基于最小错误率的贝叶斯决策贝叶斯公式,平均错误率2.2.2基于最小风险的贝叶斯决策R(ai|x)=1-P(wi|x)最小错误率贝叶斯决策是在0-1...
2018-03-08 18:18:51 498
原创 模式识别边肇祺第一章
第一章绪论1.1模式识别和模式的概念通常,我们把通过对具体的个别事物进行观测所得到的具有时间和空间分布的信息称为模式,而把模式所属的类别或同一类中模式的总体称为模式类1.2模式识别系统有两种基本的模式识别方法:统计模式识别方法和结构模式识别方法。(设计和实现)基于统计方法的模式识别系统主要由4个部分组成:数据获取,预处理,特征提取和选择,分类决策一般我们把原始数据组成的空间叫测量空间,把分类识别赖...
2018-03-08 18:05:44 386
原创 编译原理第三章(一)
第三章词法分析3.1对于词法分析器的要求词法分析的任务:从左到右逐个字符地对源程序进行扫描,产生一个个单词符号。词法分析器的功能:输入源程序,输出单词符号输出的单词符号的表示形式:(单词种别,单词自身的值)词法分析器作为一个独立子程序3.2词法分析器的设计(略)3.3正规表达式与有限自动机正规式和正规集,正规式的运算符(或连接闭包)对应正规集若两个正规式所表示的正规集相同,则这两个正规式等价。正规...
2018-03-08 16:27:48 619
原创 编译原理第二章
第二章高级语言及其语法描述2.1程序语言的定义2.2高级语言的一般特性2.3程序语言的语法描述2.3.1上下文无关文法文法是描述语言的语法结构的形式规则语法分析树:用一种图示化的方法来表示这种推导归纳起来,一个上下文无关文法G包括四个组成部分:一组终结符号,一组非终结符号,一个开始符号,以及一组产生式。大写:非终结界 小写:终结界最左推导,最右推导2.3.2语法分析树与二义性如果一个文法存在某个...
2018-03-07 21:36:41 577
原创 编译原理第一章
第一章引论编译原理:理论与实际结合的最好典范1.1什么是编译程序翻译程序:把某一种语言程序(称为源语言程序)等价地转换成另一种语言程序(称为目标语言程序)的程序编译程序:把某一种高级语言程序等价地转换成另一种低级语言程序(如汇编语言或机器语言程序)的程序解释程序:它以该语言写的源程序作为输入,但不产生目标程序,而是边解释边执行源程序本身1.2编译过程概述词法分析,语法分析,语义分析与中间代码生成,...
2018-03-06 17:16:35 359
原创 模式识别第二章(一)
第二章贝叶斯决策理论第一部分1.介绍统计工具,考虑可能性和代价假设概率已知(先验概率,利用其它信息更准确,特征提取)Decision rule:Decide w1 if P(w1)>P(w2),otherwise decide w2Bayes Decision Rule for minimizing the probability of error:Decide w1 if P(w1|x)&...
2018-03-05 21:14:00 234
原创 模式识别第一章
第一章引言1.课程名称模式识别:如何从原始输入数据中识别对象的类别,或者作出恰当的预测。机器学习:构造算法(机器)使其根据经验改进自身性能计算机视觉(质),模式识别,图形处理,机器视觉(量)2.模式识别实例人脸识别,垃圾邮件过滤,曲线拟合(欠学习,过拟合)步骤:数据获取->预处理->特征提取->分类(回归)->命令执行3.研究方向简介Active learning(主动学习...
2018-03-05 09:48:20 432
原创 字符串最长回文子串
1.burte-force解法(传统想法:o(n^3))2.遍历对称轴位置(或者用最大公共子串来解),或者直接dp,o(n^2)3.Manacher算法(o(n))最优算法计算RL[i],空间和时间复杂度都为o(n)。...
2018-03-04 17:16:46 129
原创 ECNU女队模板
Acm模板walnut, purity, dreamcloud 目录一、 头部... 3二、 常用STL. 3配对:...3离散化...4去重 4LOWER_BOUND..4离散化(另一种方法,比较低效)...4优先队列...5迭代器和遍历STL.5next_per
2017-11-02 22:44:32 429
原创 EOJ 2562
题目:Virtual Friends Time Limit:5000MS Memory Limit:65536KBTotal Submit:380 Accepted:148 Description These days, you can do all sorts of things online. For example, you can u
2016-10-31 19:22:00 408
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人