NLP
Mr.Gavin
熬夜是没有勇气结束这一天赖床是没有勇气开始这一天
展开
-
centos7 Nvidia P40 安装GPU运行环境
centos7 Nvidia P40 安装GPU运行环境文章描述安装环境显卡驱动安装安装系统编译环境查看linux系统版本对应gcc和centos内核版本验证系统是否安装正确的头文件和开发包禁用nouveau安装驱动命令检验测试查看驱动版本号的命令安装坑安装cuda运行cuda查看cuda版本号添加环境变量,否则后面运行tensorflow报链接库找不到异常验证cuda安装正确如果cuda安装版本...原创 2020-03-26 16:49:45 · 4567 阅读 · 4 评论 -
ubuntu16.04页面崩溃 总结
ubutun 16.04 页面崩溃各种方式都尝试了,还是不能解决最终通过重装解决,一些经验总结一下各种方式都尝试了,还是不能解决本人,NLP领域小学校,最近调试一个 gcc报错,以为gcc出问题,于是重装一下gcc,卸载过程中,凡是和gcc有依赖的包都卸载了,就包括Nvidia 驱动。最终通过重装解决,一些经验总结一下我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Ma...原创 2019-04-23 19:02:24 · 691 阅读 · 0 评论 -
主题模型在信息提取中体会
最近在探索热点数据摘要生成,应用除seq2seq其他的方法,把一些经验记录一下。总体来说提起的信息不全,流畅度也不好,但可以实现语义表示和语义匹配信息,极力推荐百度开源的Familia。也有其他的开源工具例如lightLDA,笔者没有尝试。文档的主题分布可以用来做优质新闻及劣质新闻的分类,根据主题分布来确认文章的熵值,进一步确定文章的丰富程度。有了文档的稀疏表示可以实现文本的聚类。根据simhas...原创 2019-03-28 19:08:38 · 348 阅读 · 0 评论 -
史上最全 Python 面向对象编程_转发
史上最全 Python 面向对象编程转自:浪子燕青http://www.langzi.fun/Python面向对象编程.html面向对象编程和函数式编程(面向过程编程)都是程序设计的方法,不过稍有区别。面向过程编程:导入各种外部库设计各种全局变量写一个函数完成某个功能写一个函数完成某个功能写一个函数完成某个功能写一个函数完成某个功能写一个函数完成某...转载 2019-03-28 18:50:14 · 239 阅读 · 0 评论 -
开源分词系统pkuseg学习
最近优化NER识别过程中,需要分词边界信息,现有的开源分词系统HANLP没有垂直领域词典的支持,效果差强人意。赶上pku开源了pkuseg,利用一些时间学习一下,记录一下个人一点见解。github地址不得不说pku对于开发者非常友好,包括训练、场景模型切换(msra/新闻领域、ctb8/混合领域、weibo/网页领域)、硬编码词典加载、模型支持对文件的处理、支持python多进程处理、提供预训...原创 2019-01-23 15:20:56 · 1885 阅读 · 0 评论 -
分词难句汇总
分词难句汇总,用于评测向海南方向前进四川人用普通话与川普通电话欢新老师生前来就餐’沿海南方向前进黑天鹅和灰犀牛是两个突发事件统计局局长宁吉喆南京市长江大桥...原创 2019-01-23 14:37:37 · 592 阅读 · 0 评论 -
数据降维之主成分分析、多维缩放、t分布随机近邻嵌入、自编码神经网络
主成分分析(PCA)算法描述: 输入样本集: 低维空间 具体过程: 注意:实践当中通常对样本矩阵进行奇异值分解代替协方差矩阵特征值分解. 维数:的选取规则: 自编码神经网络自动编码器(autoencoder)是神经网络的一种,经过训练后能尝试将输入复制到输出。自编码器内部有一个隐含层h,产生编码来表示输入,一个编码器·函数h=f(x)和一个生成重构解码器r=g(h)。原创 2017-05-09 20:29:14 · 2429 阅读 · 0 评论 -
隐马尔科夫模型、三个基本问题、三个训练算法
参考一篇“机器学习研究会”的文章与宗庆后的《统计自然语言模型》,督促自己回顾一下HMM模型知识为面试做准备。这次学习会讲了隐马尔科夫链,这是一个特别常见的模型,在自然语言处理中的应用也非常多。常见的应用比如*分词,词性标注,命名实体识别等问题序列标注问题均可使用隐马尔科夫模型*.下面,我根据自己的理解举例进行讲解一下HMM的基本模型以及三个基本问题,希望对大家理解有帮助~ 隐马尔科夫模型定义隐马原创 2017-05-18 11:15:28 · 18218 阅读 · 0 评论 -
CRF,HMM,MEMM
CRF相对于HMM,主要优点CRF的条件随机性,只需要考虑当前出现的观察状态的特性,没有严格的要求,CRF具备一切最大熵隐马尔科夫模型的优点.MEMM使用的每一个状态的指数模型来计算给定前一个状态的条件概率,CRF用单个指数模型计算给定观察序列与整个标记列的条件概率.HMM是对联合概率进行建模,CRF和MEMM是对条件概率建模.CRF是全局归一化,二MEMM是局部归一化.模型图对比: HM原创 2017-05-08 09:33:34 · 574 阅读 · 0 评论 -
条件随机场学习
前戏:一起走进条件随机场作者:白宁超2016年8月2日13:59:46【摘要】:条件随机场用于序列标注,数据分割等自然语言处理中,表现出很好的效果。在中文分词、中文人名识别和歧义消解等任务中都有应用。本文源于笔者做 ,对条件随机场的了解,逐步研究基于自然语言处理方面的应用。成文主要源于自然语言处理、机器学习、统计学习方法和部分网上资料对CRF介绍的相关的相关,最后进行大转载 2017-05-06 16:19:37 · 1832 阅读 · 0 评论 -
基于隐马尔科夫模型文本相似度问题研究
文本相似度是表示两个或者多个文本之间匹配程度的一个度量参数,相似度数值大,说明文本相似度高;反之文件相似程度就低。文本相似度的精确计算问题是进行信息处理的关键。在如今信息技术飞速发展的互联网时代,文本相似度计算的应用比较广泛。数十亿的网页,海量的信息充实着人们的知识库,在给人们带来方便的同时也存在不少的问题。人们在享受这些资源的同时也不得不花大量的时间和精力来对其筛选和辨别,如果没有有效的组织原创 2017-05-06 16:14:24 · 2954 阅读 · 1 评论 -
自然语言处理当中评价指标汇总
自然语言处理当中评价指标很多,好多专用的术语,本篇旨在对常用的评价指标汇总,督促自己系统学习,大家当做参考不足之处请指出并做交流。文本分类评测指标如下: P-R曲线的比较: 对于A和B曲线,如果需要比较,比较两个曲线的轮廓的面积.宏观和微观评价指标 ROC与AUC曲线 机器翻译当中的评价指标BLEU: 对机器翻译作人工评价时会考量到翻译的许多方面:如机器的充分性、忠实度和流原创 2017-05-11 15:03:26 · 11672 阅读 · 0 评论 -
极客梦的博客
作为自然语言处理中的小学生,喜欢各种新型深度学习框架,无论转载还是原创,旨在督促自己学习更多的知识。写的好与不好作为参考,大家一起交流上进。作为自己文档的“github”使用,积累,分享,开放。原创 2017-05-11 09:50:36 · 460 阅读 · 0 评论 -
文本自动摘要
最近人工智能随着AlphaGo战胜李世乭这一事件的高关注度,重新掀起了一波新的关注高潮,有的说人工智能将会如何超越人类,有的说将会威胁到人类的生存和发展,种种声音都在表明人工智能的又一个春天即将到来,但很多学者认为媒体的过度炒作,会引发民众对人工智能不切实际地期待,从而导致人工智能寒冬的又一次到来。Yann Lecun作为上一个人工智能寒冬时期还在坚持做冷门的神经网络研究的人,他对AI有一个非常理性转载 2017-05-11 09:42:55 · 33590 阅读 · 0 评论 -
windows10 训练word2vec 中文语料
windows10 环境训练word2vec中文语料 参考这篇文章,但有自己体会概述 本人是NLP中的菜鸟,喜欢这个领域,自己论文打算做这方面,训练word2vec是每一项NLP工作的基础内容。形成词向量直接用于神经网络的输入层,也可以作为辅助特征扩展现有模型,提高识别效果。先了解一下word2vec,是google在2013年提出的开源项目,是一个Deep Learning模型,它将ter原创 2016-03-03 16:01:02 · 8369 阅读 · 8 评论