自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(41)
  • 收藏
  • 关注

原创 jupyter快速进入非默认目录

(base) C:\Users\enshi\Documents>jupyter notebook F:\hog

2020-04-20 07:41:19 270

原创 Python类的继承:强制子类重写父类的方法

一、父类定义方法read_tokens class DataReader(object): def read_tokens(self, path): """ Reads the given file line by line and yields the list of tokens present in each ...

2020-03-02 12:59:56 1818

原创 成功解决报错:Cannot uninstall 'distlib'

一、报错安装virtualenv报错:pip install virtualenv -i https://pypi.douban.com/simple/错误如下:ERROR: Cannot uninstall 'distlib'. It is a distutils installed project and thus we cannot accurately determine whi...

2020-03-02 02:07:01 2553

原创 成功解决报错:UnicodeDecodeError

一、产生UnicodeDecodeError错误# -*- coding: utf-8 -*-"""Preprocesses Cornell Movie Dialog data."""import nltkimport tensorflow as tftf.app.flags.DEFINE_string("raw_data", "...

2020-03-01 17:01:23 1309

原创 Python加载XML格式的数据

一、XML数据<?xml version="1.0" encoding="utf-8"?> <TrainCorpus> <Questions number="0"> <EquivalenceQuestions> <question>哪些情形下,不予受理民事诉讼申请?</question> <...

2020-03-01 12:29:21 724

原创 基于AIML的对话机器人

一、编写启动文件启动文件std-startup.xml如下:<aiml version="1.0.1" encoding="UTF-8"> <!-- std-startup.xml --> <!-- Category是一个自动的AIML单元 --> <category> <!-- Pattern用来...

2020-03-01 11:42:48 871 1

原创 中文依存句法结构分析

#!/usr/bin/python3# -*- coding:utf-8 -*-"""@Author : heyw@Time : 2020/1/14 10:34@Software: PyCharm@File : stanford.py"""from stanfordcorenlp import StanfordCoreNLPfrom nltk.tree impor...

2020-02-29 18:40:48 1088

原创 数据结构与算法:一图弄懂维特比viterbi算法

一、viterbi算法的用途在自然语言的工程实践中,viterbi算法常常被用来寻找最可能的隐藏状态序列。如,序列标注任务就需要用到viterbi算法。二、viterbi求最优路径李航老师《统计机器学习》有如下例题:利用数行结合思想,解决上述例题的推理过程如下:三、viterbi算法的实现...

2020-02-29 16:25:47 882

原创 数据结构与算法:动态规划计算最长公共子串

#!/usr/bin/python3# -*- coding:utf-8 -*-"""@Author : heyw@Contact : he_yuanwen@126.com@Time : 2020/2/28 21:08@Software: PyCharm@FileName: max_len_common_sub_str.py"""def max_len_common_...

2020-02-29 10:17:00 255

原创 数据结构与算法:动态规划计算最长公共子序列

一、最长公共子序列概率最长公共子序列(LCS)是指两个序列的最长子序列的问题,且子序列不需要在原序列中占用连续的位置 。如下图,序列ABCBDAB与序列BDCABA的最长子序列为BCBA,长度为4。二、计算最长公共子序列(一)子问题的界定(二)子问题的依赖(三)子问题递推方程(四)递推时的标记函数(五)子序列的回溯三、最长公共子序列的实现"""@Author : ...

2020-02-29 08:45:05 427

原创 数据结构与算法:图的邻接矩阵与遍历

#!/usr/bin/python3-- coding:utf-8 --"""@Author : heyw@Contact : he_yuanwen@126.com@Time : 2020/2/28 14:08@Software: PyCharm@FileName: Graph.py"""# 图的邻接矩阵G = [ {1, 2, 3}, # 0 {0...

2020-02-28 18:07:29 256

原创 数据结构与算法:二叉树的建立与遍历

#!/usr/bin/python3# -*- coding:utf-8 -*-"""@Author : heyw@Contact : he_yuanwen@126.com@Time : 2020/2/28 13:54@Software: PyCharm@FileName: BiTree.py"""# 用类定义结点class Node(object): de...

2020-02-28 14:03:50 210

原创 simhash:海量无标签样本的去重算法

一、样本去重的原因在NLP的工程实践中,经常涉及到样本标注工作。例如,在实体识别中,对实体标注的原则是尽量包括更多的实体,这样才能实现“好而不同”的标注目标。因此,面临大量的无标签样本,就需要我们去重,挑选出尽量不同的样本进行标注。二、样本去重算法simhashsimhash是样本去重的一种常用算法,本文强调实战应用,不再赘述其具体原理。下面给出一段代码。# -*- encoding=ut...

2020-02-28 13:50:58 827

原创 pandas数据分析的常用方法map和apply

一、方法map的使用import numpy as npimport pandas as pdboolean = [True, False]gender = ["男","女"]color = ['white','black','yellow']data = pd.DataFrame({ 'height':np.random.randint(150,190,100), '...

2020-02-27 16:33:42 171

原创 数据结构与算法:动态规划计算编辑距离

一、编辑距离的概念  编辑距离,由俄罗斯科学家 Vladimir Levenshtein提出,也因此而得名 Levenshtein Distance。Levenshtein Distance 是用来度量两个序列相似程度的指标。通俗地来讲,编辑距离指的是在两个序列s1、s2之间,由其中一个序列s1转换为另一个序列s2所需要的最少单字符编辑操作次数。  特别规定,编辑操作限于三种类型:  1. ...

2020-02-26 08:46:15 465

原创 Python加载json格式超参数配置

谷歌提出的BERT、lasertagger等项目都提供了json形式配置文件,利用python的json工具可以快速加载这种形式的配置文件,方便地实现超参数与模型代码的分离。一、配置文件配置文件lasertagger_config.json的内容如下:{ "attention_probs_dropout_prob": 0.1, "hidden_act": "gelu", "hid...

2020-02-25 20:58:44 950

原创 解读Seq2Seq的原理及attention机制

一、Seq2Seq基本架构图Seq2Seq是一个Encoder–Decoder 结构的网络,它的输入是一个序列,输出也是一个序列。 编码器Encoder 中将一个可变长度的信号序列变为固定长度的向量表达,解码器Decoder 将这个固定长度的向量变成可变长度的目标的信号序列。二、Seq2Seq with attention计算公式(一)注意力机制的Seq2Seq架构图(二)注意力机制的...

2020-02-25 14:00:05 1299

原创 基于检索的多轮对话增强序列推理模型

2019年9月,阿里 达摩院开源了新一代人机对话模型 Enhanced Sequential Inference Model(ESIM),论文链接这里。模型准确率提升至 94.1%,曾一度打破世界纪录。笔者近期拜读了论文,对项目代码也进行了分析。对于项目的理解,这里写几点体会。 多轮对话系统建模可分为基于生成文本的方法和基于检索的方法。 多轮对话回复选择任务,将多轮对话内容连接成一个长...

2020-02-24 13:12:36 1054

原创 keras版本的条件随机场安装和API调用

条件随机场在识别识别等序列标注任务具有广泛的应用,作为当前工业界最为流行的深度学习框架,tensorflow良心提供了条件随机场的API,使用简洁方便。keras以tensorflow、theano等为后端,也是深受广大深度学习爱好者喜欢的深度学习框架,在使用keras训练序列标注的模型时,是否也有现成的条件随机场API呢?当然,今天笔者就带来大家安装、调用keras版本的CRF。一、源码安装k...

2020-02-24 11:19:05 272

原创 爬取语料并训练word2vec词向量

一、用网络爬虫爬取数据要训练出效果不错的词向量,通常需要G级以上的文本语料,本文作为demo,仅提供实现流程。因此,爬取一篇新闻作为训练语料。#!/usr/bin/python3# -*- coding:utf-8 -*-"""@Author : heyw@Contact : he_yuanwen@126.com@Time : 2020/2/22 14:40@Softwa...

2020-02-23 14:50:37 772

原创 用__iter__和__next__实现自己的迭代器

#!/usr/bin/python3# -*- coding:utf-8 -*-"""@Author : heyw@Contact : he_yuanwen@126.com@Time : 2020/2/23 9:14@Software: PyCharm@FileName: myRange.py"""class myRange(): def __init__(se...

2020-02-23 10:27:12 189

原创 基于BERT微调与知识库的问答系统

一、问答系统设计  问答系统是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户用自然语言提出的问题。1与对话系统相比,问答系统的答案通常存储在数据库,只需要采取一定的技术从数据库中精准地提取答案即可。二、问答系统实现  BERT微调、实体识别、文本分类、数据库匹配、短文本相似度匹配三、问答系统效果问题:经济新常态的主要特点是什么?回答: 新常态的主要特点是从高速增长转为中...

2020-02-22 21:17:39 2526 2

原创 用flask部署实体识别模型和远程访问

一、部署项目from flask import jsonifyfrom flask import Flaskfrom flask import request# 省略模型加载代码app = Flask(__name__)@app.route('/', methods=['POST', 'GET'])def get_text_input(): # http://127.0.0....

2020-02-20 13:08:50 432

原创 防止模型过拟合的标签平滑技术

1.softmax交叉熵损失的数学公式设存在一个三分类问题,样本经模型FC层的输出向量为则3个类别的预测概率依次为假设样本的概率分布为此时,交叉熵损失函数为2.softmax交叉熵损失的计算实例import numpy as npdef softmax(x): exp_x = np.exp(x) softmax_x = exp_x / np.sum(exp_...

2020-02-19 14:06:05 852

原创 多领域中文分词工具pkuseg筛选名词性词语

一、pkuseg和jieba的比较  与国内主流分词工具jieba相比,北大新开源的分词工具pkuseg(项目链接)在四个测试集上的F-score平均值高于jieba近10个百分点。见下图。二、筛选名词案例(一)分词环境配置  pkuseg支持领域中文分词,调用时指定特定的领域可自动下载相应模型,但是容易下载失败,建议自行下载并配置环境。如,笔者在此下载了医疗领域包medicine.zi...

2020-02-18 20:31:49 931

原创 用docker创建常用数据库的容器

一、创建Mongo容器并远程访问(一)创建容器docker run -d --name mongo --restart=always -p 27017:27017 mongo:4.0 --auth(二)注释bindIp: 127.0.0.1docker exec -it mongo /bin/bashcat /etc/issueapt-get updateapt-get instal...

2020-02-15 12:36:22 425

原创 精准搜索Github开源项目

一、开源项目组成 name: 项目名 description: 项目的简要描述 项目的源码 README.md: 项目的详细情况的介绍=二、项目搜索语法(一)主要搜索依据 in:name xxx // 按照项目名搜索 in:readme xxx // 按照README搜索 in:description xxx // 按照description搜索(二)增加筛选条件 ...

2020-02-15 09:54:48 132

原创 numpy解读:轴axis的值对聚合函数计算结果的影响

图中红线指出了各结果值的由来,请详见下图:

2020-02-14 15:12:06 155

原创 用tensorflow/serving部署深度学习模型及gRPC远程访问服务器

一.将tensorflow的ckpt模型转换为pbtxt模型#! /usr/bin/python# _*_ coding: utf-8 _*___author__ = 'Jeffery'__date__ = '2018/12/29 23:20'import tensorflow as tffrom mymodel import captcha_model as modelimport...

2020-02-14 10:19:28 776

原创 numpy解读:where过滤功能

1.numpy.whereimport numpy as nptest = np.array([1, 7, 4, 9, 2, 3, 6, 0, 8, 5])rst = np.where(test > 7)[0]print("rst:",rst)rst: [3 8]

2020-02-13 14:53:55 372

原创 新装ubuntu-16.04-desktop的基本环境配置

1.xshell远程访问ubuntusudo apt-get install openssh-server2.设置root用户密码https://www.cnblogs.com/mmdln/p/9071525.html3.卸载不必要的自带软件https://www.jianshu.com/p/67a86505279f...

2020-02-13 11:29:10 560

原创 Pycharm给Toolbar添加undo/redo按钮

一、进入“Menus and Toolbars”对话框二、进入“Choose Actions To Add”对话框三、添加undo/redo按钮

2020-02-10 23:12:22 1273 1

原创 Win10安装glove-python方法

一. 安装GCC第一步:下载4.8.1版本的GCC链接:https://sourceforge.net/projects/mingwbuilds/files/host-windows/releases/4.8.1/64-bit/threads-posix/seh/第二步:解压放置于合适的目录笔者放置于C:/AIAPP/第三步:配置环境变量第四步:测试显示gcc.exe的路径(笔者...

2020-02-09 11:58:15 3067 1

原创 numpy索引符号“...”和“:”的区别

demo代码如下:#!/usr/bin/python3# -*- coding:utf-8 -*-"""@Author : heyw@Contact : he_yuanwen@126.com@Time : 2020/2/8 13:17@Software: PyCharm@FileName: numpy_indexSymbol.py"""import numpy as ...

2020-02-08 13:26:01 1146

原创 Keras API:keras.backend.tf.gather_nd

import tensorflow as tftensor_a = tf.Variable([[1,2,3],[4,5,6],[7,8,9]])tensor_b = tf.Variable([[1,0],[1,1],[1,2]],dtype=tf.int32)tensor_c = tf.Variable([[0,2],[2,0]],dtype=tf.int32)with tf.Sessio...

2020-02-02 19:31:20 958

原创 Keras API:keras.backend.batch_dot

#!/usr/bin/python3# -*- coding:utf-8 -*-"""@Author : heyw@Contact : he_yuanwen@126.com@Time : 2020/2/2 12:51@Software: PyCharm@FileName: K.batch_dot.py"""import tensorflow as tfimport ...

2020-02-02 13:04:52 568

原创 基于医疗知识图谱的问答系统思路分析

知识图谱在问答系统、语义搜索等领域得到了越来越多的应用,是目前人工智能领域的热点研究问题。笔者近期对中国科学院软件研究所刘焕勇老师的项目QABasedOnMedicaKnowledgeGraph(github链接:https://github.com/liuhuanyong/QASystemOnMedicalKG)进行了较为系统的梳理,受益匪浅,也对该项目的进一步完善进行了一些不成熟的思考。本着分...

2020-02-02 11:01:56 3743 4

原创 Neo4j删去已建数据库数据

1. 关闭Neo4j服务器进程./neo4j stop2. 删除graph.db数据库文件cd /data/databases/rm -rf graph.db3. 重新启动Neo4j服务器./neo4j start

2020-01-29 12:35:08 924

原创 docker常用命令及容器创建

一、创建容器并开机自启docker run docker run --name mysql57 -p 33306:3306 -e MYSQL_ROOT_PASSWORD=heyuvin -d mysql:5.7@TOC欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Ma...

2020-01-28 11:04:44 395

原创 在IntelliJ IDEA中设置首字母不区分大小写的提示

File->Settings->Editor->General->Code Completion,不选中默认选中的“Match case”。

2020-01-20 08:20:29 1609

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除