Just for fun的专栏

好玩,最重要

概率图模型、原理与技术(2):基础知识

      在线查询:http://pgm.stanford.edu 表示、推理和学习是构建智能系统的关键部分,陈述性表示是世界模型的一个合理编码。我们需要能够有效地利用这个表示在很广的范围回答人们感兴趣的问题。还有,我们需要能够结合专家的知识和积累的数据来获取这个分布。 2.1 概...

2018-07-31 10:08:34

阅读数 249

评论数 0

利用中文数据跑Google开源项目word2vec

一直听说word2vec在处理词与词的相似度的问题上效果十分好,最近自己也上手跑了跑Google开源的代码(https://code.google.com/p/word2vec/)。 1、语料 首先准备数据:采用网上博客上推荐的全网新闻数据(SogouCA),大小为2.1G。  从ftp上下...

2018-07-30 14:28:24

阅读数 502

评论数 0

句法依存关系抽取

用的句法依存,然后手动滑稽的进行分类映射~ 可以参考GitHub - Mrlyk423/Relation_Extraction: Knowledge Base EmbeddingGitHub - bishanyang/EventEntityExtractor: Joint event and en...

2018-07-28 10:14:19

阅读数 834

评论数 0

python正则表达式详解

python正则表达式详解   正则表达式是一个很强大的字符串处理工具,几乎任何关于字符串的操作都可以使用正则表达式来完成,作为一个爬虫工作者,每天和字符串打交道,正则表达式更是不可或缺的技能,正则表达式的在不同的语言中使用方式可能不一样,不过只要学会了任意一门语言的正则表达式用法,其他语言中大...

2018-07-27 17:18:55

阅读数 129

评论数 0

Python:利用正则表达式从字符串提取数字

正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。 Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。 re 模块使 Python 语言拥有全部的正则表达式功能。利用正则表达式从字符串提取数字主要用到下面几个函数: (1)c...

2018-07-27 16:34:06

阅读数 1354

评论数 0

PYTHON实现算术表达式的词法语法语义分析(编译原理应用)

本学期编译原理的一个大作业,我的选题是算术表达式的词法语法语义分析,当时由于学得比较渣,只用了递归下降的方法进行了分析。   首先,用户输入算术表达式,其中算术表达式可以包含基本运算符,括号,数字,以及用户自定义变量。 词法分析,检查单词变量是否正确;语法分析,检查算术表达式语法是否正确并输...

2018-07-27 14:37:36

阅读数 464

评论数 0

Python处理csv文件

Python处理csv文件 CSV(Comma-Separated Values)即逗号分隔值,可以用Excel打开查看。由于是纯文本,任何编辑器也都可打开。与Excel文件不同,CSV文件中: 值没有类型,所有值都是字符串 不能指定字体颜色等样式 不能指定单元格的宽高,不能合并单元格 ...

2018-07-26 19:38:49

阅读数 85

评论数 0

使用Python语言编写简单的HTML5语法解析器

1     问题 如何编写一个语法解析器(Parser)呢?在C/C++语言领域,我们有lex & yacc(文法解析器和语法解析器的生成器)及其GNU移植版本flex & bison,yacc是根据大牛Knuth的LALR文法设计的,自底向上进行...

2018-07-26 17:58:29

阅读数 859

评论数 0

使用html方式在博客中添加数学公式

使用在线latex公式编辑http://www.codecogs.com/latex/eqneditor.php编辑想要的数学公式   右键复制gif链接到图片 完成

2018-07-26 09:31:24

阅读数 249

评论数 0

《中文文本信息抽取模型与方法研究》5:基于论元结构的事件要素及其角色识别

       论元结构是沟通认知与句法结构的桥梁,是语义和句法的接口,在现代句法学和语义学研究中有着相当重要的地位,对于确定句子含义和进行文本理解意义重大。利用CRF来识别事件要素及其角色的方法。         语义分析旨在让计算机能够根据句子的句法结构和句子中每个实词的词义推到出这个句子的意...

2018-07-24 20:25:42

阅读数 285

评论数 0

《中文文本信息抽取模型与方法研究》4:特定类型事件的探测与分类

     事件探测和分类是基于触发词探测的事件信息抽取中的首要任务,对事件信息抽取的后继任务至关重要。一种基于最大熵模型的事件分类方法,该方法能够综合事件表述语句中的触发词信息及各类上下文特征对事件进行分类。       确定的事件类别正确与否对事件模板的选择以及究竟要抽取哪些事件要素来填充模板...

2018-07-24 18:49:35

阅读数 311

评论数 0

《中文文本信息抽取模型与方法研究》3:事件抽取模式的自动获取

     传统的信息抽取系统大多是基于模式匹配的,因此,如何自动获取抽取模式就成为信息抽取中的一个核心问题。本章提出了一种从未标注的中文文本中基于自扩展策略自动获取时间抽取模式的算法,该算法从少数几个种子抽取模式开始,通过一个增量迭代的过程发现新模式,每一轮迭代从三个层次对抽取模式进行扩展,然后采...

2018-07-24 17:40:16

阅读数 1491

评论数 0

《中文文本信息抽取模型与方法研究》2:基于CRF的半结构化文本信息抽取

        半结构化文本数据一般不具有完整的句法结构,但具有明显的版面布局结构和特定的标签信息。常见的这类文本有科研论文的头部信息和引文信息、学术报告公告、个人简历、招聘信息、产品参数信息等。         从科研论文的头部信息和引文信息为例分析了半结构化文本的特征,针对HMM不能充分利用...

2018-07-24 16:00:19

阅读数 673

评论数 0

《中文文本信息抽取模型与方法研究》1:绪论

      本书依据所处理的文本对象的不同将文本信息抽取分为两类:一类是半结构化文本信息抽取,所处理的文本句法结果不完整,具有明显的版面结构和一些特定的标识信息,通常从这类文本中抽取连续的信息域。例如从科研论文中抽取头部信息和引文信息。另一类是自由文本信息抽取,所处理的文本自然语言形式的语句组成,...

2018-07-24 15:10:47

阅读数 1237

评论数 0

基于依存句法分析的开放式中文实体关系抽取

 这一段时间一直在做知识图谱,卡在实体关系抽取这里几个月了,在github上面看到有人使用卷积神经网络训练模型进行抽取,自己也尝试了一下,但是一直苦于没有像样数据去训练,而标注训练集又太费时间了,我不太愿意干体力活。所以采用了一个低档次的方法,基于依存句法分析的实体关系抽取,记录一下心得,方便日后...

2018-07-23 18:42:40

阅读数 1375

评论数 1

让人工智能解数学题,可能没你想象的那么简单

约1500年前的古代数学著作《孙子算经》中记载了一个有趣的问题:“今有雉兔同笼,上有三十五头,下有九十四足,问雉兔各几何?”这就是今人所谓的鸡兔同笼问题。如今这个问题小学生们解决起来可能都轻而易举,但对于人工智能而言可能并非如此。在人工智能火热的今天,我们想聊聊如何让计算机具备解此类问题的能力——...

2018-07-23 16:38:54

阅读数 233

评论数 0

Python预测分析(1):关于预测的两类核心算法

    本书涉及的机器学习问题通常是指“函数逼近”问题。是有监督学习问题的一个子集。线性回归和逻辑回归是解决此类函数逼近问题最常见的算法。函数逼近问题包含了各种领域中的分类问题和回归问题,如文本分类、搜索响应、广告放置、垃圾邮件过滤、用户行为预测、诊断等。从广义上说,本书涵盖了解决函数逼近问题的两...

2018-07-22 23:43:43

阅读数 4384

评论数 0

关于深度学习中的注意力机制,这篇文章从实例到原理都帮你参透了

最近两年,注意力模型(Attention Model)被广泛使用在自然语言处理、图像识别及语音识别等各种不同类型的深度学习任务中,是深度学习技术中最值得关注与深入了解的核心技术之一。   本文以机器翻译为例,深入浅出地介绍了深度学习中注意力机制的原理及关键计算机制,同时也抽象出其本质思想,并介...

2018-07-18 22:23:30

阅读数 1719

评论数 1

Python自然语言处理实战(8):情感分析技术

实战电影评论情感分析         情感分析是一段文字表达的情绪状态。其中,一段文本可以使一个句子、一个段落或者一个文档。主要涉及两个问题:文本表达和文本分类。在深度学习出现之前,主流的表示方法有BOW(词袋模型)和topic model(主题模型),分类模型主要有SVM和LR。      ...

2018-07-18 20:47:34

阅读数 1229

评论数 3

Python自然语言处理实战(7):文本向量化

7.1 文本向量化概述     文本表示是自然语言处理中的基础工作,文本表示的好坏直接影响到整个自然语言处理系统的性能。文本向量化是文本表示的一种重要方式。顾名思义,文本向量化就是将文本表示成一系列能够表达文本语义的向量。无论是中文还是英文,词语都是表达文本处理的最基本单元。当前阶段,对文本向量...

2018-07-18 00:21:05

阅读数 1745

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭