2021年01月_bohu83

原创动态规划习题review

老师在讲完语言模型之前，貌似是助教插入了一堂习题课044-047，专门讲了下动态规划。关于算法我自己是有体会的，不会或者觉得回了过两又忘了。动态规划：很重要的是找出初始数据以及状态转移。补充下题目：53. Maximum SubarrayGiven an integer array nums, find the contiguous subarray (containing at least one number) which has the largest sum and return it

2021-01-30 23:24:53 162

原创 NLP学习笔记18-朴素贝叶斯(Naive Bayes)

一序本文属于贪心NLP学习笔记系列。本篇介绍朴素贝叶斯。二朴素贝叶斯2.1 问题引出垃圾邮件里经常出现“广告”，“购买”，“产品”这些单词。也就是p(“广告”|垃圾)>p(“广告”|正常)，p(“购买”|垃圾)>p(“购买”|正常)……这符合我们判断习惯。那么这些概率怎么计算？具体案例1如下：下图计算了购买在垃圾邮件和正常邮件里出现的概率。根据假设：正常邮件的单词总数为24*10，垃圾邮件为：12 *10正常邮件含有“购买”词的概率多少？p(“购买...

2021-01-30 16:59:20 495

原创 NLP学习笔记17-机器学习

一序本文属于贪心NLP学习笔记系列。从本节课开始进入机器学习的章节。之前的两个分支之一：基于概率的系统（Probabilistic），主要是学习出数据与标签之间的映射关系。二机器学习定义：自动从已有的数据里找出一规律，然后把学到的这些规律应用到对未来数据（future data）的预测中，或者在不确定环境下自动地做一些决策。两大流派：<1>有监督的(Supervised Learning,即我们有一些训练数据，通过训练数据去构建一个模型)、无监督的(unsupervi.

2021-01-29 18:15:38 202

原创 NLP学习笔记16-专家系统

一序本文属于贪心NLP学习笔记系列。 leaning 学习逻辑：通过历史数据学习模型，通过模型来预测未来。二学习的两种主流方式根据AI 发展的历程，可以分为两个branch专家系统：基于规则基于于概率的系统（Probabilistic）：给定数据D={X，y} 学习X到y的映射关系数据量大则优先使用基于概率的系统；若数据量小或没有数据，则推荐使用专家系统（expert system）。专家系统这是依赖人的经验（人就是专家），这种仍然广泛使用。专家系统...

2021-01-27 23:59:55 760

原创 NLP学习笔记15-生成句子

一序本文属于NLP学习笔记系列。二生成模型当一个模型训练好后，我们可以利用这个模型来生成一些数据，就是生成模型。例如：生成句子，音乐，图像，程序等。当然还有判别模型。语言模型属于生成模型，所以可以生成句子。下面的例子，假如有个词库，然后每一个词对应的概率已经训练好了，然后用Unigram来生成一个句子：由于Unigram是不考虑上下文的，所以这个句子完全就随机根据单词的概率取的下一个词。这种不一定符合人的逻辑。下面看Bigram如何生成一句话。先根据词库写出每个..

2021-01-26 23:43:40 1217

原创 NLP学习笔记14-语言模型(下)

一序本文属于贪心NLP 学习笔记系列。今天开始，明显的数学概念多了起来。二unigram不考虑单词之间的顺序，依赖于马尔科夫假设。假设w1,w2,...wn是相互独立的：一个事件的发生与否，不会影响另外一个事件的发生。而P(w1)、P(w2).....P(wn)的计算方法如下：统计语料库中某个单词出现的次数，再除以语料库的总词数。缺点：单词相互独立，所以语义上不通顺的跟通顺的概率一样，不能很好的区分。三 bigram(基于1st order markov as...

2021-01-25 00:00:55 537 1

原创 NLP学习笔记13-语言模型（上）

一序本文属于贪心NLP学习笔记系列。二Noise Channel Model（噪声信道模型）老师在接下来将语言模型之前，先介绍了噪声信道模型。噪声信道试图通过有噪声的输出信号恢复输入信号。对于某一输入信号，此信号通过会产生噪声的转换信道得到输出信号，现在假设我们已知道输出信号，求解它的输入信号，那么就会用到此模型。假设用户想传递的信息是m1 经过有噪声信道传递之后接受到的数据source .并且m1到mn是语料库。必有如下等式成立也就是说，在不知道原有信息是内容的情...

2021-01-23 17:01:05 467 2

原创 NLP学习笔记12-倒排表

一序本文属于贪心NLP学习笔记系列。二问答时间复杂度之前的问答系统，根据用户的question ,与知识库的qa 做匹配。计算句子的相似度。时间复杂度是O（N），跟随知识库的大小。当知识库很大的时候，这个实时性也是不能接受的。如何降低时间复杂度？老师讲的办法是“层次过滤思想”，这属于降维的过程。是实际业务中很重要的一种解决办法。层次过滤要注意每层过滤算法的时间复杂度，就是开始的filter1 要比后面的低，相当于粗筛之后，大幅减少了要精细计算的数据量，这样才..

2021-01-23 11:33:54 261

原创 NLP学习笔记11-词向量

一序本文属于NLP学习笔记系列。one-hot 表示方式有什么缺点？不能表示单词直接的相似度，欧氏距离，余弦相似度都不行。缺点2：稀疏性 sparsity二词向量分布式表示(Distributed Representation)1分布式表示长度与词典长度无关，可以自定义，解决了稀疏性问题。2 向量的数据基本上非0.我们先理解这个两个不同，不关心数据是怎么来的。先来验证下。这种表示方式能否解决单词相似度的问题。数据符合我们的直觉。这里使..

2021-01-22 21:38:05 473

原创 ES 使用正则表达式模糊匹配

关于模糊匹配官网上有例子。我自己试了下：类似马冬梅，大爷问的马什么梅？但是看了ES自己的官方博客：https://blog.csdn.net/ubuntutouch/article/details/104136035虽然在上面我们得到我们想要的结果，但是在实际使用 regexp 搜索时，我们必须记住如下的事项：避免通配符在前面，比如上面的.*work。可能以避免使用前导通配符的方式对数据建立索引通常，正则表达式可能会很昂贵如果面向的C端用户的。还是谨慎性吧。影响了整.

2021-01-22 10:38:06 3460

原创 NLP学习笔记10-文本表示

一序本文属于NLP学习笔记系列。二 one-hot 文本表示很经典的一个算法。这种方法把每个词表示为一个很长的向量。向量的维度就是词典的长度。这个向量的维度是词表大小，其中绝大多数元素为 0，只有一个维度的值为 1，这个维度就代表了当前的词。2.1单词的表示形式下面，老师讲的例子：词典就7个单词。实际可能几十万个2.2 句子的表达形式(不统计词频) boolean将词典看成一个一维向量，若词典里的单词在句子中出现(不管几次)，则一维数组的对应位置标为12...

2021-01-20 21:29:12 270

原创关于中国大陆地区2021年4月和6月PMI认证考试合并举行的通知

一个悲伤的消息：疫情影响，2021年4月考试跟6月合并考。so,我从2020年夏天报考，到12月北京不考外地考，到2021年4月考试，有改到2021年6月。以下为通知原文：尊敬的各位考生：为了确保所有考生的生命安全和身体健康，全力控制新型冠状病毒的传播，经PMI和中国国际人才交流基金会研究决定，中国大陆地区2021年4月和6月的PMI认证考试将合并举行，考试时间将视疫情防控情况另行确定并公布。对于受本次推迟考试影响的考生，PMI将相应延长其考试资格有效期。2021年...

2021-01-19 23:23:48 192

原创 NLP 学习笔记9-停用词

一序本文属于NLP学习笔记系列。二停用词对于NLP的应用，我们通常将停用词、出现频率很低的词过滤掉。关于停用词词典，可以看下之前的：文本预处理与停用词这个主要是对业务影响不大，不影响分析，类似于特征筛选的过程。要考虑自己的应用场景。case：一些形容词通常会过滤掉，但是在情感分析中表达语气要保留。自己会做修改。三词的标准化这块就是英文的。举例：went,go,going 时态不同，还有单复数，比较级等等。设计技术： stemming ...

2021-01-19 23:05:42 1634 2

原创 MAC WIFI卡死无响应

电脑用了1年多之后，尤其是在睡眠之后再进去，容易出现WiFi无响应，一直转圈圈。重启能解决，但是太麻烦了。上网找了命令。sudo killall airportd再终端执行，输入密码之后就可以杀掉，自动重连WiFi了。...

2021-01-19 13:41:21 1555

原创 NLP学习笔记8-拼写纠错2

一序本篇属于NLP学习笔记系列。二优化通过replace(替换)、add(添加)、delete(删除)生成编辑距离为1，2 的字符串。好处是：不依赖于词典的大小，如果词典不大，也可以不用那个这种方法。如何过滤呢？从数学角度来看问题定义: 给定一个字符串s, 我们要找出最有可能成为正确的字符串c, 也就是c' = argmaxp(c|s) 这里argmax算是一个数学基础，老师给解释了。知乎上找个图：简化：c' = argmax p(c|...

2021-01-18 23:36:38 122

原创 PMP 1.18 日常练习题

一01.18群内练习题1.由于缺乏资金，一个项目在启动阶段被终止，项目经理必须对项目收尾。项目经理首先应该做什么？A：查阅沟通管理计划，适当地通知所有相关方B：审查组织的项目收尾指南C：执行风险分析，确定终止项目的潜在影响D：结束所有项目采购过程2.在经验教训会议上，团队的反馈非常积极，项目经理意识到这是因为团队不想损失可能获得的奖金。若要获得团队的诚实反馈，项目经理应该怎么做？A：进行匿名电子调查B：使用分析技术收集绩效和其他指标C：让发起人参与获得独立评估D：正...

2021-01-18 13:59:14 1305

原创 NLP学习笔记07-拼写纠错

一序本文属于NLP学习笔记系列。二纠错case1 不在词典2 词没错，但是不适合上下文。2.1编辑距离关于文本纠错之编辑距离这是我之前整理的，项目里面用的。属于DP经典算法，可以用递归https://leetcode-cn.com/problems/edit-distance/为了方便理解：网上找了两个图初始化：状态转移过程：编辑距离的操作：增加字符、删除字符、替换字符。我们定义一个dp[word1.length() + 1][word2.l.

2021-01-18 00:16:40 213

原创 NLP学习笔记06-维特比算法

一序本文属于NLP学习笔记系列。上一篇整理了前向最大匹配算法与所有组合算法缺点（时间复杂度太高了）。二维特比算法log(x*y*z)= log(x)+log(y)+log(z)概率上为了避免小数练乘出现的超范围溢出，改用log，改用-log,使得原来求概率最大的小数为-log结果最小。画一条线，把各种结果对应路径标注上（定义f8 :从节点1到8 的最短路径的值），这里求总结果最小，演变成求最短路径。如果不使用哪个DP算法，那么就是递归的过程：举例：f(8)=f(5)+3.

2021-01-16 10:12:19 486

原创 01.13 练习题

【01.13今日习题】 1、项目经理和项目发起人在合同收尾期间发生争议。在确定项目完成时，哪一份文件是项目经理和项目发起人之间协议的依据？A：验收的可交付成果B：项目范围说明书C：项目管理计划D：项目章程2、一名高管在生产上线期间加入敏捷团队，在上线之后，该高管希望知道sprint冲刺期间哪些进展顺利，以及哪些进展不顺利，该高管应该参加什么会议?A：回顾会议B：每日scrum会议C：sprint评审会议D：sprint计划会议3、在交付某个产品功能的迭代...

2021-01-14 13:33:47 1321

原创 NLP学习笔记05---文本处理(分词)

1.文本处理的一般流程 pipeline分词主要是中文，英语使用空格区分不涉及，清洗包括无用的标签(例如从网上爬取的文本中可能包含html标签)、特殊的符号(！感叹号、省略号等)、停用词、大写转小写标准化包括stemming、lemmazatic(就是对英文词汇中的名词、动词转换化标准形态)，这个主要是英语，中文不涉及。特征提取：常见的TF-IDF（ES就是这个打分机制），word2vec建模：主要是AI的算法。再下面是评估，所以NLP相对复杂些。要具备工程能力把这些不同的模块整.

2021-01-13 23:39:35 1323

原创 NLP学习笔记04-问答系统

一序问答系统：有给定的问题。根据用户的输入，匹配相关的问答。二处理流程这里通常有两种方式：1种是用正则，2是计算相似度。基于概率的，是需要训练数据的。通用处理流程：先分词，后门的预处理操作：spell correctness(拼写纠错)、找出原形、stopwords(停用词过滤)、word filter(过滤词)、同义词文本--->向量的方法：boolean vector(布尔向量)、conf vector(统计词出现的频率)、TF-IDF、word2vec(词.

2021-01-10 19:53:42 519

原创 PMP 1.5练习题

【01.05今日习题】 1、 —位新项目经理加入了由高级项目经理监督的项目，发起人要求新项目经理制定质量管理计划，项目经理应该怎么做？A：向高级项目经理咨询已制定的质量过程和计划，并在选择适当的标准时寻求指导B：与客户开会收集需求C：要求发起人提供成本效益分析和标杆对照样本D：提交变更请求推迟了质量管理计划的发展计划直到质量测量指标和质量检查表被创造2、团队利用最新技术完成了新产品的原型。在测试期间，产品不符合性能规格。项目经理应该怎么做？A：与项目发起人重新协商性能规格...

2021-01-06 21:48:27 1922

原创 NLP学习笔记03-算法复杂度

一序虽然是在b站看的视频，但是说真的感受老师讲的真好，后面还是要去反复学习下。因为算法是大厂必考的，老师没有吹嘘哪些NB之处，而是实在的说明，时间复杂度和空间复杂度，这是任何AI工程师必须要深入理解的概念。就是你不光要读论文仰望星空，还是要脚踏实地，把实际遇到的问题工程能力落到实处。二时间复杂度不从数学角度来看公式推导，不考虑前面的系数。O(1)：Constant Complexity 常数复杂度 O(log n)：Logarithmic Complexity 对数复杂...

2021-01-03 00:16:37 343

原创 NLP学习笔记02-NLP的应用场景与关键技术

一序本文属于NLP学习笔记系列。二 NLP 应用场景问答系统情感分析机器翻译自动摘要信息抽取(Information extraction)聊天机器人三NLP的关键技术最底层是声音，我们不关注。从下往上依次是：单词、句子结构、语义。morphology单词：相关的有分词、词性、NER. 单词层属于基础，这个准确性直接影响上层的效果。syntax句子结构：单词与单词之间的关系，其中语法分析、依存分析。semantic语义：机...

2021-01-02 18:22:02 802

原创小白学NLP学习笔记-入门

一序学习没有捷径可以走。对于NLP来说数学跟Python是绕不过去的。立个flag.希望能踏实的通过学习，知道别人的文章写得啥，对于工作有指导。老师说：要具备这样的能力现实生活中的问题=========》》》数学优化问题=========》》》通过适合的工具解决二NLP的定义以及歧义性NLP=NLU（语音、文本-->意思）+ NLG（意思-->文本/语音）NLP:理解，NLG表达2.1Ambiguity (一词多义) 苹果的例子--》公...

2021-01-02 00:18:27 690

bohu83的博客