自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Just for fun的专栏

好玩,最重要

原创 概率图模型、原理与技术(2):基础知识

   在线查询:http://pgm.stanford.edu表示、推理和学习是构建智能系统的关键部分,陈述性表示是世界模型的一个合理编码。我们需要能够有效地利用这个表示在很广的范围回答人们感兴趣的问题。还有,我们需要能够结合专家的知识和积累的数据来获取这个分布。2.1 概率论    概率分布:    事件空间:    期望与方差:2.2 图    节点...

2018-07-31 10:08:34 378

转载 利用中文数据跑Google开源项目word2vec

一直听说word2vec在处理词与词的相似度的问题上效果十分好,最近自己也上手跑了跑Google开源的代码(https://code.google.com/p/word2vec/)。1、语料首先准备数据:采用网上博客上推荐的全网新闻数据(SogouCA),大小为2.1G。 从ftp上下载数据包SogouCA.tar.gz:1 wget ftp://ftp.labs.sogou.c...

2018-07-30 14:28:24 986

转载 句法依存关系抽取

用的句法依存,然后手动滑稽的进行分类映射~可以参考GitHub - Mrlyk423/Relation_Extraction: Knowledge Base EmbeddingGitHub - bishanyang/EventEntityExtractor: Joint event and entity extractorGitHub - yifange/event_extractionGitH...

2018-07-28 10:14:19 2078

转载 python正则表达式详解

python正则表达式详解  正则表达式是一个很强大的字符串处理工具,几乎任何关于字符串的操作都可以使用正则表达式来完成,作为一个爬虫工作者,每天和字符串打交道,正则表达式更是不可或缺的技能,正则表达式的在不同的语言中使用方式可能不一样,不过只要学会了任意一门语言的正则表达式用法,其他语言中大部分也只是换了个函数的名称而已,本质都是一样的。下面,我来介绍一下python中的正则表达式是怎么使用...

2018-07-27 17:18:55 179

转载 Python:利用正则表达式从字符串提取数字

正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。re 模块使 Python 语言拥有全部的正则表达式功能。利用正则表达式从字符串提取数字主要用到下面几个函数:(1)compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正...

2018-07-27 16:34:06 3886

转载 PYTHON实现算术表达式的词法语法语义分析(编译原理应用)

本学期编译原理的一个大作业,我的选题是算术表达式的词法语法语义分析,当时由于学得比较渣,只用了递归下降的方法进行了分析。 首先,用户输入算术表达式,其中算术表达式可以包含基本运算符,括号,数字,以及用户自定义变量。词法分析,检查单词变量是否正确;语法分析,检查算术表达式语法是否正确并输出生成语法树;语义分析,输出四元表达式。 最终效果图:例如输入: 词法分析结果:...

2018-07-27 14:37:36 1323

转载 Python处理csv文件

Python处理csv文件CSV(Comma-Separated Values)即逗号分隔值,可以用Excel打开查看。由于是纯文本,任何编辑器也都可打开。与Excel文件不同,CSV文件中:值没有类型,所有值都是字符串 不能指定字体颜色等样式 不能指定单元格的宽高,不能合并单元格 没有多个工作表 不能嵌入图像图表在CSV文件中,以,作为分隔符,分隔两个单元格。像这样a,,c表示...

2018-07-26 19:38:49 242

转载 使用Python语言编写简单的HTML5语法解析器

1     问题如何编写一个语法解析器(Parser)呢?在C/C++语言领域,我们有lex & yacc(文法解析器和语法解析器的生成器)及其GNU移植版本flex & bison,yacc是根据大牛Knuth的LALR文法设计的,自底向上进行解析;在Java语言领域,我们有ANTLR,这是是一个基于LL(n)文法的解析器生成器(递归下降,向前看n个Token消解冲突)。通过...

2018-07-26 17:58:29 1616

转载 使用html方式在博客中添加数学公式

使用在线latex公式编辑http://www.codecogs.com/latex/eqneditor.php编辑想要的数学公式 右键复制gif链接到图片完成

2018-07-26 09:31:24 674

原创 《中文文本信息抽取模型与方法研究》5:基于论元结构的事件要素及其角色识别

       论元结构是沟通认知与句法结构的桥梁,是语义和句法的接口,在现代句法学和语义学研究中有着相当重要的地位,对于确定句子含义和进行文本理解意义重大。利用CRF来识别事件要素及其角色的方法。        语义分析旨在让计算机能够根据句子的句法结构和句子中每个实词的词义推到出这个句子的意义。对中文文本事件信息抽取中的事件要素及其语义角色的识别这一具体问题来说,就是要分析事件表述语句中的触...

2018-07-24 20:25:42 749

原创 《中文文本信息抽取模型与方法研究》4:特定类型事件的探测与分类

     事件探测和分类是基于触发词探测的事件信息抽取中的首要任务,对事件信息抽取的后继任务至关重要。一种基于最大熵模型的事件分类方法,该方法能够综合事件表述语句中的触发词信息及各类上下文特征对事件进行分类。      确定的事件类别正确与否对事件模板的选择以及究竟要抽取哪些事件要素来填充模板至关重要。       本章所提出的基于最大熵的事件分类方法和一般的基于最大熵的文本分类方法也是不...

2018-07-24 18:49:35 748

原创 《中文文本信息抽取模型与方法研究》3:事件抽取模式的自动获取

     传统的信息抽取系统大多是基于模式匹配的,因此,如何自动获取抽取模式就成为信息抽取中的一个核心问题。本章提出了一种从未标注的中文文本中基于自扩展策略自动获取时间抽取模式的算法,该算法从少数几个种子抽取模式开始,通过一个增量迭代的过程发现新模式,每一轮迭代从三个层次对抽取模式进行扩展,然后采用类似于TF/IDF的评估方法对产生的候选模式进行评估,选择得分最高的几个模式并入到当前模式集。 ...

2018-07-24 17:40:16 2775

原创 《中文文本信息抽取模型与方法研究》2:基于CRF的半结构化文本信息抽取

        半结构化文本数据一般不具有完整的句法结构,但具有明显的版面布局结构和特定的标签信息。常见的这类文本有科研论文的头部信息和引文信息、学术报告公告、个人简历、招聘信息、产品参数信息等。        从科研论文的头部信息和引文信息为例分析了半结构化文本的特征,针对HMM不能充分利用对抽取有用的上下文特征,提出了一种基于CRF的方法。在抽取信息时先利用分隔符、特定标识符等格式信息对文...

2018-07-24 16:00:19 1628

原创 《中文文本信息抽取模型与方法研究》1:绪论

      本书依据所处理的文本对象的不同将文本信息抽取分为两类:一类是半结构化文本信息抽取,所处理的文本句法结果不完整,具有明显的版面结构和一些特定的标识信息,通常从这类文本中抽取连续的信息域。例如从科研论文中抽取头部信息和引文信息。另一类是自由文本信息抽取,所处理的文本自然语言形式的语句组成,具有完整的句法结构,主要研究从这类文本中抽取特定类型的事件信息,称为文本事件信息抽取。例如从新闻报道中...

2018-07-24 15:10:47 2474

转载 基于依存句法分析的开放式中文实体关系抽取

 这一段时间一直在做知识图谱,卡在实体关系抽取这里几个月了,在github上面看到有人使用卷积神经网络训练模型进行抽取,自己也尝试了一下,但是一直苦于没有像样数据去训练,而标注训练集又太费时间了,我不太愿意干体力活。所以采用了一个低档次的方法,基于依存句法分析的实体关系抽取,记录一下心得,方便日后忘记可以再找回来。    本方法参考了github上面的项目和一篇论文,在文章末尾给出,使用的分词...

2018-07-23 18:42:40 2533 1

转载 让人工智能解数学题,可能没你想象的那么简单

约1500年前的古代数学著作《孙子算经》中记载了一个有趣的问题:“今有雉兔同笼,上有三十五头,下有九十四足,问雉兔各几何?”这就是今人所谓的鸡兔同笼问题。如今这个问题小学生们解决起来可能都轻而易举,但对于人工智能而言可能并非如此。在人工智能火热的今天,我们想聊聊如何让计算机具备解此类问题的能力——即数学解题。智能答题任务如果说一套系统就能解决所有问题的“通用人工智能”离人们的生活还很遥远,...

2018-07-23 16:38:54 733

原创 Python预测分析(1):关于预测的两类核心算法

    本书涉及的机器学习问题通常是指“函数逼近”问题。是有监督学习问题的一个子集。线性回归和逻辑回归是解决此类函数逼近问题最常见的算法。函数逼近问题包含了各种领域中的分类问题和回归问题,如文本分类、搜索响应、广告放置、垃圾邮件过滤、用户行为预测、诊断等。从广义上说,本书涵盖了解决函数逼近问题的两类算法:惩罚线性回归和集成方法。    为什么这两类算法如此有用?1.“An Empirica...

2018-07-22 23:43:43 10175

转载 关于深度学习中的注意力机制,这篇文章从实例到原理都帮你参透了

最近两年,注意力模型(Attention Model)被广泛使用在自然语言处理、图像识别及语音识别等各种不同类型的深度学习任务中,是深度学习技术中最值得关注与深入了解的核心技术之一。 本文以机器翻译为例,深入浅出地介绍了深度学习中注意力机制的原理及关键计算机制,同时也抽象出其本质思想,并介绍了注意力模型在图像及语音等领域的典型应用场景。 注意力模型最近几年在深度学习各个领域被广泛使...

2018-07-18 22:23:30 2606 2

原创 Python自然语言处理实战(8):情感分析技术

实战电影评论情感分析        情感分析是一段文字表达的情绪状态。其中,一段文本可以使一个句子、一个段落或者一个文档。主要涉及两个问题:文本表达和文本分类。在深度学习出现之前,主流的表示方法有BOW(词袋模型)和topic model(主题模型),分类模型主要有SVM和LR。         载入数据:IMDB情感分析数据集,训练集和测试集分别包含了25000条已标注的电影评论,满分了...

2018-07-18 20:47:34 3139 5

原创 Python自然语言处理实战(7):文本向量化

7.1 文本向量化概述    文本表示是自然语言处理中的基础工作,文本表示的好坏直接影响到整个自然语言处理系统的性能。文本向量化是文本表示的一种重要方式。顾名思义,文本向量化就是将文本表示成一系列能够表达文本语义的向量。无论是中文还是英文,词语都是表达文本处理的最基本单元。当前阶段,对文本向量化大部分的研究都是通过词向量化实现的。与此同时,也有相当一部分研究者将句子作为文本处理的基本单元,于是...

2018-07-18 00:21:05 3544

原创 Python自然语言处理实战(5):关键词提取算法

5.1 关键词提取技术概述    相对于有监督的方法而言,无监督的方法对数据的要求就低多了。既不需要一张人工生成、维护的词表,也不需要人工标准语料辅助进行训练。因此,这类算法在关键词提取领域的应用更受到大家的青睐。目前常用的算法有TF-IDF算法、TextRank算法和主题模型算法(包括LSA、LSI、LDA等)5.2 关键词提取算法TF/IDF算法    TF-IDF(Term Frequenc...

2018-07-16 18:08:08 5999 8

原创 Python自然语言处理实战(4):词性标注与命名实体识别

4.1 词性标注       词性是词汇基本的语法属性,通常也称为词类。从整体上看,大多数词语,尤其是实词,一般只有一到两个词性,且其中一个词性的使用频次远远大于另一个,即使每次都将高频词性作为词性选择进行标注,也能实现80%以上的准确率。目前较为主流的方法是如同分词一样,将句子的词性标注作为一个序列标注问题来解决。       较为主流的词性标注规范有北大的词性标注集和滨州词性标注集两大类。  ...

2018-07-16 15:01:29 4871

转载 如何用简单易懂的例子解释条件随机场(CRF)模型?它和HMM有什么区别?

作者:Scofield链接:https://www.zhihu.com/question/35866596/answer/236886066来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。so far till now, 我还没见到过将CRF讲的个明明白白的。一个都没。就不能不抄来抄去吗?我打算搞一个这样的版本,无门槛理解的。——20170927陆陆续续把调研学习工作...

2018-07-16 14:56:28 13196 10

原创 Python自然语言处理实战(3):中文分词技术

3.1、中文分词简介       在英文中,单词本身就是“词”的表达,一篇英文文章就是“单词”加分隔符(空格)来表示的,而在汉语中,词以字为基本单位的,但是一篇文章的语义表达却仍然是以词来划分的。       自中文自动分词被提出以来,历经将近30年的探索,提出了很多方法,可主要归纳为“规则分词”、“统计分词”和“混合分词”这三个主要流派。3.2、规则分词     基于规则的分词是一种机械分词方法...

2018-07-15 17:49:18 2684 2

原创 Python自然语言处理实战(1):NLP基础

      从建模的角度看,为了方便计算机处理,自然语言可以被定义为一组规则或符号的集合,我们组合集合中的符号来传递各种信息。自然语言处理研究表示语言能力、语言应用的模型,通过建立计算机框架来实现这样的语言模型,并且不断完善这样的语言模型,还需要根据语言模型来设计各种实用的系统,并且探讨这些实用技术的评测技术。从自然语言的角度出发,NLP基本可以分为两个部分:自然语言处理以及自然语言的生成,演化为...

2018-07-14 20:24:23 6292

转载 从LSTM到Seq2Seq

http://x-algo.cn/index.php/2017/01/13/1609/LSTM(Long Short Term Memory)由于传统的RNN在进行几次链式法则求导后梯度会指数级缩小(如图),导致传播几层后出现梯度消失,无法处理“长期依赖”问题。国外学者刻意设计了一种RNN的变体来克服这个问题,即LSTM。基本的LSTM结构如图:(1) 输入门 itit :控制当前输入和前一步输出...

2018-07-08 22:26:37 1526

转载 对话论文总结

 这是NIPS2017的文章。【有开源代码,memory网络的代码,可以借鉴这篇文章】 对话系统主要分成两类:基于任务的对话系统,闲聊式的对话系统。End2end(+attention+memory)的方式,使得对话系统不需要规则,并且性能超过基于规则的方式。但是还没有文章就个性化的对话系统,展开工作。将个性化的信息+对话系统,用多任务的方式训练。 数据库:基于bAbI dialog datase...

2018-07-08 21:43:19 546

原创 《机器学习:算法原理和编程实践》4:推荐系统原理

2、协同过滤及其算法     协同过滤通过用户和产品及用户的偏好信息产生推荐的策略,最基本的策略有两种:一种是找到具有类似品位的人所喜欢的物品;另一种是从一个人喜欢的物品中找出类似的物品。这就是两个最知名的类别推荐技术:基于用户的推荐技术和基于物品的推荐技术,它们被称为协同过滤。     协同过滤可以利用用户和物品的信息来预测用户的好恶,并发现新的用户还不知道的东西,形成促销策略。这就完成了推荐系...

2018-07-07 15:57:51 469

原创 《机器学习:算法原理和编程实践》3:决策树的发展

1、决策树的算法框架决策树的主函数计算最优特征子函数:ID3用信息增益、C4.5用信息增益率、CART用节点方差的大小等。信息熵:用来表示任何一种能量在空间中分布的均匀程度。能量分布得越均匀,熵就越大。在决策树中,它不仅能用来度量类别的不确定性,也可以用来度量包含不同特征的数据样本与类别的不确定性。CART算法是目前决策树算法中最为成熟的一类算法,应用范围也比较广泛。      在回归树中,数据集...

2018-07-07 15:22:15 512

原创 《机器学习:算法原理和编程实践》2:中文文本分类

1、文本挖掘与文本分类的概念     简言之,文本挖掘就是从非结构化的文本中寻找知识的过程。其7个主要领域如下:搜索和信息检索(IR):存储和文本文档的检索,包括搜索引擎和关键字搜索。文本聚类:使用聚类方法,对词汇、片段、段落或文件进行分组和归类。文本分类:对片段、段落或文件进行分组和归类,在使用数据挖掘分类方法的基础上,经过训练地标记示例模型。Web挖掘:在互联网上进行数据和文本挖掘,并特别关注...

2018-07-07 14:50:35 442

原创 图解HTTP(4)

九、基于HTTP的功能追加协议     HTTP的瓶颈:一条连接上只可发送一个请求请求只能从客户端开始。客户端不可以接收除响应以外的指令请求/响应首部未经压缩就发送。首部信息越多延迟越大发送冗长的首部。每次互相发送相同的首部造成的浪费较多可任意选择数据压缩格式。非强制压缩发送    Ajax的解决方法:名为XMLHttpRequest的API,通过JS调用就能和服务器进行HTTP通信。借由这种手段...

2018-07-01 20:58:55 175

原创 图解HTTP(3) 安全

七、确保Web安全的HTTPS      HTTP主要有这些不足:通信使用明文(不加密),内容可能会被窃听不验证通信方的身份,因此有可能遭遇伪装无法证明报文的完整性,所以有可能已遭篡改    通信的加密:和SSL组合使用的HTTP被称为HTTPS    内容的加密:客户端和服务端需要加密和解密    如何防止篡改:常用的是MD5和SHA-1等散列值校验的方法,以及用来确认文件的数字签名方法。   ...

2018-07-01 18:09:05 195

原创 图解HTTP(2)

五、与HTTP协作的Web服务器    HTTP/1.1规范允许一台HTTP服务器搭建多个Web站点。    除客户端和服务器以外,还有一些用于通信数据转发的应用程序,例如代理、网关和隧道,它们可以配合服务器工作。    使用代理服务器的理由有:利用缓存技术减少网络带宽的流量,组织内部针对特定网站的访问控制,以获取访问日志为主要目的,等等。缓存代理和透明代理    网关:能使通信线路上的服务器提供...

2018-07-01 17:25:28 184

原创 图解HTTP(1)

一、了解Web及网络基础      为知识共享而规划Web:1989年3月,CERN(欧洲核子研究组织)的Tim BernersLee博士提出了一种能让远哥两地的研究者们共享知识的设想。最初设想的基本理念是:借助多文档之间相互关联形成的超文本(HyperText),连成可相互参阅的WWW(World Wide Web,万维网)。      现在已提出了3项WWW构建技术,分别是:把SGML作为页面...

2018-07-01 10:56:39 216

提示
确定要删除当前文章?
取消 删除