Class_guy-CSDN博客

原创国内外知识库

英文：1.WordNet：依赖专家知识，由人工标注，将英文单词按照单词的语义组成一个大的概念网络。由同义词集和描述同义词集之间的关系构成。词语被聚类为同义词集，每个同义词集表示一个基本的词汇语义概念，词集之间的语义关系包括同义关系、反义关系、上位关系、下位关系、整体关系、部分关系、蕴含关系、因果关系、近似关系等。http://wordnet.princeton.com/2.Cyc/Open...

2019-08-18 21:51:39 1563

原创可视化词向量-TSNE

可视化词向量的好处是可以验证训练的词向量的效果，常采用TSNE方法可视化。t-分布领域嵌入算法，它只用于已标注数据时才真正有意义，可以明确显示出输入的聚类状况。主要想法是将高维分布点的距离用条件概率来表示相似性，同时低维分布的点也是这样表示。只要二者的条件概率非常接近(用相对熵来训练，所以需要label)，那就说明高维分布的点已经映射到低维分布上了。难点：1.高维距离较近的点...

2019-04-04 10:40:04 6213 1

原创 TensorFlow加载多个模型

通常我们在开发中根据不同任务需要不同的预训练模型，因此需要同时加载多个模型文件。但是同时加载多个TensorFlow预训练模型时，若还是采用加载单个模型文件一样的方式则会因图冲突而加载失败。主要是因为不同对象里面的不同sess使用了同一进程空间下的相同的默认图graph。因此，我们需要为为每个类(实例)单独创建一个graphg1 = tf.Graph() #为每个类(实例)单独创建一个gr...

2019-02-26 22:28:59 3420 2

原创知识图谱随笔

知识图谱构建方式：自顶向下，自底向上自顶向下：先为知识图谱定义好本体与数据模式，再将实体加入到实体库。注意：此种方式需要利用一些现有的结构化知识库作为基础知识库。自底向上：从一些开放链接数据中提取出实体，选择其中置信度较高的加入到知识库，再构建顶层的本体模式。行业知识库也称为垂直型知识库。 Extract KBs 涉及两个关键技术： 1.实体链接：...

2019-01-16 10:32:47 476

原创简单的检索式问答系统

这是我之前做的一个小项目，趁现在有时间就把它拿出来记录一下。通过此项目，能够掌握以下几个知识点：字符串操作 2. 文本预处理技术（词过滤，标准化） 3. 文本的表示（tf-idf, word2vec) 4. 文本相似度计算 5. 文本高效检索简单的检索式的问答系统问答系统所需要的数据已经提供，对于每一个问题都可以找得到相应的答案，所以可以理解为每一个样本数据是 <问题、答案&g...

2019-01-15 20:50:31 6782 6

原创对话系统笔记

单轮对话一、单轮对话指简单的一问一答，问题可以用一句话来描述，不依赖于上下文。如下图所示：对话交互中大大量的问题都是这样的单轮问答。一般这样的问答依赖于一个知识库/问答对集合。机器人从知识库里检索相似的问题，给出答案。二、单轮对话指标1、召回率召回率 = 机器人能回答的问题数 / 问题总数召回率：机器人能答上来的问题越多，则召回率越高。会话没有召回可能...

2018-12-25 09:02:53 4670 1

原创论文笔记：Emotional Chatting Machine: Emotional Conversation Generation with Internal and External Memory

总所周知，许多对话系统的回复都比较单调或中性，降低了对话体验。而且，情感智能是人工智能至关重要的一部分，它能够感知，识别，理解用户的情感，并依此调节自身情感，给出符合情绪的表达。该篇论文设计了一个情绪化的对话生成模型。该模型应用于开放领域对话系统，可以将情绪信息引入到对话生成模型中，根据情绪类别生成相应回复语句。模型接受单轮的对话上文，即可生成基于不同情绪类别的对话下文（也可以增加输入指定的情...

2018-12-15 17:16:30 3797 5

原创论文学习笔记：Building Task-Oriented Dialogue Systems for Online Shopping

首先，该篇论文是北航与微软小冰团队合作的，该对话系统旨在帮助网购用户完成各种与购物相关的任务，为用户推荐更多相关产品和产品信息，同时还支持闲聊。对话系统一般能分为两类：1、聊天型系统旨在与用户进行交谈，并提供有趣的，与上下文相关的合理回复。2、任务型系统旨在帮助用户完成特定任务目标（例如找餐厅）。本文设计的是任务型对话系统，该系统由4部分组成：DS={QU,ST,DM,PKB...

2018-12-10 15:22:17 1088 2

原创个性化对话系统Personalization in Goal-oriented Dialog

地址：https://www.jianshu.com/p/c8149e3db9a2

2018-12-03 18:03:22 655 3

原创 scrapy爬虫后IP地址被ban解决方案

主要策略：动态设置user agent 禁用cookies 设置延迟下载使用google cache 使用IP地址池（Tor Project、VPN和代理IP）使用Crawlera1、创建middlewares.py　　scrapy代理IP、user agent的切换都是通过DOWNLOADER_MIDDLEWARES进行控制，下面我们创建middlewares.py文件。...

2018-11-27 21:08:50 9371

转载 Python内置方法

回顾记录Python的内置方法1、__new__、__init____new__方法是真正的类构造方法，用于产生实例化对象（空属性）。重写__new__方法可以控制对象的产生过程。__init__方法是初始化方法，负责对实例化对象进行属性值初始化，此方法必须返回None，__new__方法必须返回一个对象。重写__init__方法可以控制对象的初始化过程。# 使用new来处理单例模式...

2018-11-16 15:30:36 234

转载 Python装饰器

之前每搞懂Python的装饰器，现在特记录复习。为什么需要装饰器我们假设你的程序实现了say_hello()和say_goodbye()两个函数。def say_hello(): print "hello!" def say_goodbye(): print "hello!" # bug hereif __name__ == '__main__': ...

2018-11-16 15:01:59 185

转载 C++面试知识总结

C/C++const作用修饰变量，说明该变量不可以被改变；修饰指针，分为指向常量的指针和指针常量；常量引用，经常用于形参类型，即避免了拷贝，又避免了函数对值的修改；修饰成员函数，说明该成员函数内不能修改成员变量。使用const 使用// 类class A{private: const int a; // 常对象成员，只...

2018-11-01 09:22:30 980

转载 Linux常用命令

最近老是记不住Linux的命令，特做一些总结。系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取...

2018-10-26 21:42:11 292

转载使用卷积神经网络的一些技巧

转载自：https://mp.weixin.qq.com/s/kH4KyZFdFO01R0Nt1fE9yA障排除前…以下是在编写深度学习算法时要遵循的最佳实践，关于这个主题的很好的资料来源于CS231n课程讲义以及Bengio的综述论文。Stanford's CS231n课程讲义：http://cs231n.github.io/Bengio的综述论文：https://arx...

2018-10-12 09:57:56 545

原创常见特征选择方法简要笔记

子集搜索，一般采用贪心算法：前向搜索，后向搜索，双向搜索子集评价，一般采用信息增益方法特征选择常用算法一般过程：1、生成子集：搜素特征子集，为评价函数提供特征子集2、评价函数：评价特征的好坏3、停止准则：与评价函数相关，一般是阈值。评价函数达到一定标准后就可停止搜索4、验证过程：在验证数据集上验证选出来的特征子集的有效性。常见的特征选择方法：1、过滤式：过滤式...

2018-10-11 10:47:18 1023

转载构建深度学习网络的实用技巧

转载自：https://www.cnblogs.com/DicksonJYL/p/9660811.html作者| Matt H/Daniel R译者| 婉清编辑| Jane出品| AI 科技大本营【导读】在经历成千上万个小时机器学习训练时间后，计算机并不是唯一学到很多东西的角色，作为开发者和训练者的我们也犯了很多错误，修复了许多错误，从而积累了很多经验。在本文中，作者基于...

2018-10-03 17:52:49 1058

转载标准C++中的string类的用法总结

转载自：http://www.cnblogs.com/xFreedom/archive/2011/05/16/2048037.html要想使用标准C++中string类，必须要包含#include <string>// 注意是<string>，不是<string.h>，带.h的是C语言中的头文件using std::string;using ...

2018-10-03 10:24:24 358

转载神经网络模型优化方法（缓解过拟合）

转自：https://blog.csdn.net/chenyukuai6625/article/details/76922840一、背景简介在深度学习和机器学习的各种模型训练过程中，在训练数据不够多时，自己常常会遇到的问题就是过拟合（overfitting），过拟合的意思就是模型过度接近训练的数据，使得模型的泛化能力降低，泛化能力降低表现为模型在训练集上测试的误差很低，但是真正在验证集...

2018-09-07 11:22:32 5804

原创 MapReduce概述

MapReduce是一个软件框架，可以将单个计算作业分配给多台计算机执行。它假定这些作业在单机上需要很长的运行时间，因此使用多台机器缩短运行时间。常见的例子是日常统计数字汇总，该任务单机上执行时间将超过一整天。优点：可在短时间内完成大量工作。缺点：算法必需经过重写，需要对系统工程有一定的理解。适用数据类型：数值型和标称型数据。MapReduce在大量节点组成的集群上运行。工作流...

2018-08-12 22:15:41 383

原创知识图谱资料

知识图谱基础：https://www.jianshu.com/p/4f09043e22ea如何构建知识图谱：https://zhuanlan.zhihu.com/p/29332977?group_id=891668221558661120

2018-08-10 14:39:04 578

原创知识库问答

Extracted KBs指直接从网页中抽取出实体关系三元组的知识库。Extracted KBs 知识库涉及到的两大关键技术是实体链指(Entity linking) ，即将文档中的实体名字链接到知识库中特定的实体上。它主要涉及自然语言处理领域的两个经典问题实体识别 (Entity Recognition) 与实体消歧 (Entity Disambiguation)，简单地来说，就是要从文...

2018-08-10 14:28:40 4306

转载问答系统综述

转载自：https://zhuanlan.zhihu.com/p/32214787研究的基本问题:对应流程中的三个过程有三个研究的基本问题:1.问题分析:如何去分析问题;2.信息检索:如何根据问题的分析结果去缩小答案可能存在的范围;3. 答案抽取:如何从可能存在答案的信息块中抽取答案。在问答系统的不同发展阶段, 对于这三个基本问题的解决方法随着数据类型的变化在不断变化, ...

2018-08-09 13:47:28 25331 1

转载常用时间序列算法

时间序列中常用预测技术一个时间序列是一组对于某一变量连续时间点或连续时段上的观测值。1. 移动平均法 (MA)1.1. 简单移动平均法设有一时间序列y1,y2,..., 则按数据点的顺序逐点推移求出N个数的平均数，即可得到一次移动平均数. 1.2 趋势移动平均法当时间序列没有明显的趋势变动时，使用一次移动平均就能够准确地反映实际情况，直接用第t周期的一次移动平均数就可...

2018-08-08 09:13:19 3130

原创刷题笔记2

1、若一序列进栈顺序为a1,a2,a3,a4，问存在多少种可能的出栈序列（）A 12 B 13 C 14 D 15答案：C2、下列属于有监督学习算法的是：（）A 谱聚类 B 主成分分析PCA C 主题模型LDA D 线性判别分析LDA答案：D3、以下是产生式模型的...

2018-07-31 14:44:46 5207

原创笔记：关键词提取算法

关键词提取算法一般也能分为有监督和无监督。1、有监督的关键词提取算法主要是通过分类的方式进行的，通过构建一个较为丰富和完善的词表，然后通过判断每个文档与词表中每个词的匹配程度，以类似打标签的方式，达到关键词提取的效果。有监督的方法能够获取到较高的精度，但缺点是需要大批量的标注数据，人工成本过高。另外，会有大量的信息出现，一个固定的词表有时很难将信息的内容表达出来。2、而无监督的方法对数据要...

2018-07-26 22:36:47 2792

转载决策树模型 ID3/C4.5/CART三种算法的区别

转载自：https://www.cnblogs.com/wxquare/p/5379970.html 决策树模型在监督学习中非常常见，可用于分类（二分类、多分类）和回归。虽然将多棵弱决策树的Bagging、Random Forest、Boosting等tree ensembel 模型更为常见，但是“完全生长”决策树因为其简单直观，具有很强的解释性，也有广泛的应用，而且决策树是tree ense...

2018-07-25 17:46:46 10893

原创笔记-分词

1、分词可分为三个流派：规则分词，统计分词，混合分词。规则分词是通过人工设立词库，按照一定方式进行匹配切分，其实现简单高效，但对新词很难进行处理。随后统计机器学习技术的兴起，应用于分词任务上后，就有了统计分词，能够较好应对新词发现等特殊场景。然而实践中，单纯的统计分词也有缺陷，那就是太过于依赖语料的质量，因此实践中多是采用这两种方法的结合，即混合分词。1.1 规则分词基于规则的分词...

2018-07-24 23:12:15 424

转载特征选择

转载自：https://blog.csdn.net/adore1993/article/details/53980327什么是特征选择特征选择也称特征子集选择，或者属性选择，是指从全部特诊中选取一个特征子集，使构造出来的模型更好。为什么要做特征选择在机器学习的实际应用中，特征数量往往较多，其中可能存在不相关的特征，特征之间也可能存在相互依赖，容易导致： ...

2018-07-23 22:05:53 486

转载文本分类特征选择方法

转载自：https://www.cnblogs.com/june0507/p/7601001.html-1. TF-IDF的误区TF-IDF可以有效评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。因为它综合表征了该词在文档中的重要程度和文档区分度。但在文本分类中单纯使用TF-IDF来判断一个特征是否有区分度是不够的。1）它没有考虑特征词在类间的分布。也就是说该选择的特征...

2018-07-23 22:03:40 2885

原创刷题笔记

1、在一个文档中，文档的关键词能够反映文档的主题，关键词自动标注包括关键词抽取、关键词分配和社会标签推荐，下列哪些选项属于关键词抽取的方法（）A、多标签分类方法 B、基于图的无监督方法 C、基于标注图的方法 D、基于分类的有监督方法答案：B D关键词选取的方法主要有两种：无监督的方法，利用候选关键词的统计性质，对他们排序，选取最高的若干个作为关键词；有监督的方法，将...

2018-07-22 22:11:02 3479

转载搭建TensorFlow环境

转载自：“我爱自然语言处理”：http://www.52nlp.cn安装CUDA9.x注：如果还需要安装Tensorflow1.8，建议这里安装CUDA9.0，我在另一台机器上遇到了一点问题，怀疑和我这台机器先安装CUDA9.0，再安装CUDA9.2有关。依然从英伟达官方下载当前的CUDA版本，我选择了最新的CUDA9.2：点选完对应Ubuntu16.04的CUDA9.2 de...

2018-07-17 15:56:11 644

转载梯度上升算法和梯度下降算法

转载自：https://www.cnblogs.com/HongjianChen/p/8718988.html梯度下降算法：w=w-α∇wf(w)梯度上升算法：w=w+α∇wf(w)梯度上升算法用来求函数的最大值，梯度下降算法用来求函数的最小值。方向导数当讨论函数沿任意方向的变化率时，也就引出了方向导数的定义，即：某一点在某一趋近方向上的导数值。导数和偏导数的定义中，均是沿坐标轴正方向讨论函数的...

2018-07-15 10:51:08 5295

转载笔记：知识图谱的构建方式

一、知识图谱的逻辑结构知识图谱在逻辑上可分为模式层与数据层两个层次，数据层主要是由一系列的事实组成，而知识将以事实为单位进行存储。如果用(实体1，关系，实体2)、(实体、属性，属性值)这样的三元组来表达事实，可选择图数据库作为存储介质，例如开源的Neo4j、Twitter的FlockDB、sones的GraphDB等。模式层构建在数据层之上，主要是通过本体库来规范数据层的一系列事

2018-01-24 17:07:18 22987 3

原创学习笔记：Coarse-to-Fine Auto-Encoder Networks (CFAN) for Real-Time Face Alignment

这篇论文中设计的网络结构用于seetaface人脸识别引擎中。作者提出了一个粗到精的自动编码网络（CFAN），级联了一些堆叠自动编码网络（SANs）。1、初步是将检测到的整体的人脸的低分辨率版本作为输入，这样第一个SAN就能快速并足够准确的预测标志点。---全局SAN2、余下的SAN随后通过以越来越高分辨率的方式将当前标志（先前SAN的输出）提取的局部特征作为输入进行逐步细化。--局部

2017-10-29 09:50:13 2485 1

原创学习笔记：LAB Feature with Feature-centric Cascade for Fast and Accurate Face Detection

LAB特征是中科院计算所山世光研究员团队提出来的，主要用于人脸检测。LAB的概念：全称是Locally Assembled Binary ，主要是将Haar特征按照LBP特征的方式进行提取。也就是黑色矩形的像素减去白色矩形的像素的结果如果大于0就令该特征为1，否则为0。公式如下：Haar特征计算方法：σ 是候选窗口x的方差。组合的方式：此

2017-10-24 16:49:16 1747

转载笔记：人脸识别概述

这是我做人脸识别项目是调研到的信息。只是作为一个笔记保存在博客里。如有任何不当之处，请指出。谢谢。

2017-10-18 11:15:47 684

问题答案对数据库

linux:cudnn7.1 for cuda 9.2

运行opencv错误，找不到malloc.h文件，何解