渔舟唱晚兮-CSDN博客

原创 jupyter快速进入非默认目录

(base) C:\Users\enshi\Documents>jupyter notebook F:\hog

2020-04-20 07:41:19 353

原创 Python类的继承：强制子类重写父类的方法

一、父类定义方法read_tokens class DataReader(object): def read_tokens(self, path): """ Reads the given file line by line and yields the list of tokens present in each ...

2020-03-02 12:59:56 1928

原创成功解决报错：Cannot uninstall 'distlib'

一、报错安装virtualenv报错：pip install virtualenv -i https://pypi.douban.com/simple/错误如下：ERROR: Cannot uninstall 'distlib'. It is a distutils installed project and thus we cannot accurately determine whi...

2020-03-02 02:07:01 2633

原创成功解决报错：UnicodeDecodeError

一、产生UnicodeDecodeError错误# -*- coding: utf-8 -*-"""Preprocesses Cornell Movie Dialog data."""import nltkimport tensorflow as tftf.app.flags.DEFINE_string("raw_data", "...

2020-03-01 17:01:23 1449

原创 Python加载XML格式的数据

一、XML数据<?xml version="1.0" encoding="utf-8"?> <TrainCorpus> <Questions number="0"> <EquivalenceQuestions> <question>哪些情形下，不予受理民事诉讼申请？</question> <...

2020-03-01 12:29:21 791

原创基于AIML的对话机器人

一、编写启动文件启动文件std-startup.xml如下：<aiml version="1.0.1" encoding="UTF-8">   <category> <!-- Pattern用来...

2020-03-01 11:42:48 957 1

原创中文依存句法结构分析

#!/usr/bin/python3# -*- coding:utf-8 -*-"""@Author : heyw@Time : 2020/1/14 10:34@Software: PyCharm@File : stanford.py"""from stanfordcorenlp import StanfordCoreNLPfrom nltk.tree impor...

2020-02-29 18:40:48 1163

原创数据结构与算法：一图弄懂维特比viterbi算法

一、viterbi算法的用途在自然语言的工程实践中，viterbi算法常常被用来寻找最可能的隐藏状态序列。如，序列标注任务就需要用到viterbi算法。二、viterbi求最优路径李航老师《统计机器学习》有如下例题：利用数行结合思想，解决上述例题的推理过程如下：三、viterbi算法的实现...

2020-02-29 16:25:47 1042

原创数据结构与算法：动态规划计算最长公共子串

#!/usr/bin/python3# -*- coding:utf-8 -*-"""@Author : heyw@Contact : he_yuanwen@126.com@Time : 2020/2/28 21:08@Software: PyCharm@FileName: max_len_common_sub_str.py"""def max_len_common_...

2020-02-29 10:17:00 305

原创数据结构与算法：动态规划计算最长公共子序列

一、最长公共子序列概率最长公共子序列（LCS）是指两个序列的最长子序列的问题，且子序列不需要在原序列中占用连续的位置。如下图，序列ABCBDAB与序列BDCABA的最长子序列为BCBA，长度为4。二、计算最长公共子序列（一）子问题的界定（二）子问题的依赖（三）子问题递推方程（四）递推时的标记函数（五）子序列的回溯三、最长公共子序列的实现"""@Author : ...

2020-02-29 08:45:05 519

原创数据结构与算法：图的邻接矩阵与遍历

#!/usr/bin/python3-- coding:utf-8 --"""@Author : heyw@Contact : he_yuanwen@126.com@Time : 2020/2/28 14:08@Software: PyCharm@FileName: Graph.py"""# 图的邻接矩阵G = [ {1, 2, 3}, # 0 {0...

2020-02-28 18:07:29 309

原创数据结构与算法：二叉树的建立与遍历

#!/usr/bin/python3# -*- coding:utf-8 -*-"""@Author : heyw@Contact : he_yuanwen@126.com@Time : 2020/2/28 13:54@Software: PyCharm@FileName: BiTree.py"""# 用类定义结点class Node(object): de...

2020-02-28 14:03:50 283

原创 simhash：海量无标签样本的去重算法

一、样本去重的原因在NLP的工程实践中，经常涉及到样本标注工作。例如，在实体识别中，对实体标注的原则是尽量包括更多的实体，这样才能实现“好而不同”的标注目标。因此，面临大量的无标签样本，就需要我们去重，挑选出尽量不同的样本进行标注。二、样本去重算法simhashsimhash是样本去重的一种常用算法，本文强调实战应用，不再赘述其具体原理。下面给出一段代码。# -*- encoding=ut...

2020-02-28 13:50:58 938

原创 pandas数据分析的常用方法map和apply

一、方法map的使用import numpy as npimport pandas as pdboolean = [True, False]gender = ["男","女"]color = ['white','black','yellow']data = pd.DataFrame({ 'height':np.random.randint(150,190,100), '...

2020-02-27 16:33:42 229

原创数据结构与算法：动态规划计算编辑距离

一、编辑距离的概念编辑距离，由俄罗斯科学家 Vladimir Levenshtein提出，也因此而得名 Levenshtein Distance。Levenshtein Distance 是用来度量两个序列相似程度的指标。通俗地来讲，编辑距离指的是在两个序列s1、s2之间，由其中一个序列s1转换为另一个序列s2所需要的最少单字符编辑操作次数。特别规定，编辑操作限于三种类型： 1. ...

2020-02-26 08:46:15 561

原创 Python加载json格式超参数配置

谷歌提出的BERT、lasertagger等项目都提供了json形式配置文件，利用python的json工具可以快速加载这种形式的配置文件，方便地实现超参数与模型代码的分离。一、配置文件配置文件lasertagger_config.json的内容如下：{ "attention_probs_dropout_prob": 0.1, "hidden_act": "gelu", "hid...

2020-02-25 20:58:44 1071

原创解读Seq2Seq的原理及attention机制

一、Seq2Seq基本架构图Seq2Seq是一个Encoder–Decoder 结构的网络，它的输入是一个序列，输出也是一个序列。编码器Encoder 中将一个可变长度的信号序列变为固定长度的向量表达，解码器Decoder 将这个固定长度的向量变成可变长度的目标的信号序列。二、Seq2Seq with attention计算公式（一）注意力机制的Seq2Seq架构图（二）注意力机制的...

2020-02-25 14:00:05 1420

原创基于检索的多轮对话增强序列推理模型

2019年9月，阿里达摩院开源了新一代人机对话模型 Enhanced Sequential Inference Model（ESIM），论文链接这里。模型准确率提升至 94.1%，曾一度打破世界纪录。笔者近期拜读了论文，对项目代码也进行了分析。对于项目的理解，这里写几点体会。多轮对话系统建模可分为基于生成文本的方法和基于检索的方法。多轮对话回复选择任务，将多轮对话内容连接成一个长...

2020-02-24 13:12:36 1279

条件随机场在识别识别等序列标注任务具有广泛的应用，作为当前工业界最为流行的深度学习框架，tensorflow良心提供了条件随机场的API，使用简洁方便。keras以tensorflow、theano等为后端，也是深受广大深度学习爱好者喜欢的深度学习框架，在使用keras训练序列标注的模型时，是否也有现成的条件随机场API呢？当然，今天笔者就带来大家安装、调用keras版本的CRF。一、源码安装k...

2020-02-24 11:19:05 330

原创爬取语料并训练word2vec词向量

一、用网络爬虫爬取数据要训练出效果不错的词向量，通常需要G级以上的文本语料，本文作为demo，仅提供实现流程。因此，爬取一篇新闻作为训练语料。#!/usr/bin/python3# -*- coding:utf-8 -*-"""@Author : heyw@Contact : he_yuanwen@126.com@Time : 2020/2/22 14:40@Softwa...

2020-02-23 14:50:37 861

原创用iter和next实现自己的迭代器

#!/usr/bin/python3# -*- coding:utf-8 -*-"""@Author : heyw@Contact : he_yuanwen@126.com@Time : 2020/2/23 9:14@Software: PyCharm@FileName: myRange.py"""class myRange(): def __init__(se...

2020-02-23 10:27:12 232

原创基于BERT微调与知识库的问答系统

一、问答系统设计问答系统是信息检索系统的一种高级形式，它能用准确、简洁的自然语言回答用户用自然语言提出的问题。1与对话系统相比，问答系统的答案通常存储在数据库，只需要采取一定的技术从数据库中精准地提取答案即可。二、问答系统实现 BERT微调、实体识别、文本分类、数据库匹配、短文本相似度匹配三、问答系统效果问题：经济新常态的主要特点是什么？回答: 新常态的主要特点是从高速增长转为中...

2020-02-22 21:17:39 2735 2

原创用flask部署实体识别模型和远程访问

一、部署项目from flask import jsonifyfrom flask import Flaskfrom flask import request# 省略模型加载代码app = Flask(__name__)@app.route('/', methods=['POST', 'GET'])def get_text_input(): # http://127.0.0....

2020-02-20 13:08:50 498

原创防止模型过拟合的标签平滑技术

1.softmax交叉熵损失的数学公式设存在一个三分类问题，样本经模型FC层的输出向量为则3个类别的预测概率依次为假设样本的概率分布为此时，交叉熵损失函数为2.softmax交叉熵损失的计算实例import numpy as npdef softmax(x): exp_x = np.exp(x) softmax_x = exp_x / np.sum(exp_...

2020-02-19 14:06:05 937

原创多领域中文分词工具pkuseg筛选名词性词语

一、pkuseg和jieba的比较与国内主流分词工具jieba相比，北大新开源的分词工具pkuseg（项目链接）在四个测试集上的F-score平均值高于jieba近10个百分点。见下图。二、筛选名词案例（一）分词环境配置 pkuseg支持领域中文分词，调用时指定特定的领域可自动下载相应模型，但是容易下载失败，建议自行下载并配置环境。如，笔者在此下载了医疗领域包medicine.zi...

2020-02-18 20:31:49 1059

原创用docker创建常用数据库的容器

一、创建Mongo容器并远程访问（一）创建容器docker run -d --name mongo --restart=always -p 27017:27017 mongo:4.0 --auth（二）注释bindIp: 127.0.0.1docker exec -it mongo /bin/bashcat /etc/issueapt-get updateapt-get instal...

2020-02-15 12:36:22 476

原创精准搜索Github开源项目

一、开源项目组成 name: 项目名 description: 项目的简要描述项目的源码 README.md: 项目的详细情况的介绍=二、项目搜索语法（一）主要搜索依据 in:name xxx // 按照项目名搜索 in:readme xxx // 按照README搜索 in:description xxx // 按照description搜索（二）增加筛选条件 ...

2020-02-15 09:54:48 182

原创 numpy解读：轴axis的值对聚合函数计算结果的影响

图中红线指出了各结果值的由来，请详见下图：

2020-02-14 15:12:06 206

原创用tensorflow/serving部署深度学习模型及gRPC远程访问服务器

一.将tensorflow的ckpt模型转换为pbtxt模型#! /usr/bin/python# _*_ coding: utf-8 _*___author__ = 'Jeffery'__date__ = '2018/12/29 23:20'import tensorflow as tffrom mymodel import captcha_model as modelimport...

2020-02-14 10:19:28 879

原创 numpy解读：where过滤功能

1.numpy.whereimport numpy as nptest = np.array([1, 7, 4, 9, 2, 3, 6, 0, 8, 5])rst = np.where(test > 7)[0]print("rst:",rst)rst: [3 8]

2020-02-13 14:53:55 425

原创新装ubuntu-16.04-desktop的基本环境配置

1.xshell远程访问ubuntusudo apt-get install openssh-server2.设置root用户密码https://www.cnblogs.com/mmdln/p/9071525.html3.卸载不必要的自带软件https://www.jianshu.com/p/67a86505279f...

2020-02-13 11:29:10 627

原创 Pycharm给Toolbar添加undo/redo按钮

一、进入“Menus and Toolbars”对话框二、进入“Choose Actions To Add”对话框三、添加undo/redo按钮

2020-02-10 23:12:22 1423 1

原创 Win10安装glove-python方法

一. 安装GCC第一步：下载4.8.1版本的GCC链接：https://sourceforge.net/projects/mingwbuilds/files/host-windows/releases/4.8.1/64-bit/threads-posix/seh/第二步：解压放置于合适的目录笔者放置于C:/AIAPP/第三步：配置环境变量第四步：测试显示gcc.exe的路径（笔者...

2020-02-09 11:58:15 3280 1

原创 numpy索引符号“...”和“:”的区别

demo代码如下：#!/usr/bin/python3# -*- coding:utf-8 -*-"""@Author : heyw@Contact : he_yuanwen@126.com@Time : 2020/2/8 13:17@Software: PyCharm@FileName: numpy_indexSymbol.py"""import numpy as ...

2020-02-08 13:26:01 1260

原创 Keras API:keras.backend.tf.gather_nd

import tensorflow as tftensor_a = tf.Variable([[1,2,3],[4,5,6],[7,8,9]])tensor_b = tf.Variable([[1,0],[1,1],[1,2]],dtype=tf.int32)tensor_c = tf.Variable([[0,2],[2,0]],dtype=tf.int32)with tf.Sessio...

2020-02-02 19:31:20 1034

原创 Keras API:keras.backend.batch_dot

#!/usr/bin/python3# -*- coding:utf-8 -*-"""@Author : heyw@Contact : he_yuanwen@126.com@Time : 2020/2/2 12:51@Software: PyCharm@FileName: K.batch_dot.py"""import tensorflow as tfimport ...

2020-02-02 13:04:52 665

原创基于医疗知识图谱的问答系统思路分析

知识图谱在问答系统、语义搜索等领域得到了越来越多的应用，是目前人工智能领域的热点研究问题。笔者近期对中国科学院软件研究所刘焕勇老师的项目QABasedOnMedicaKnowledgeGraph（github链接：https://github.com/liuhuanyong/QASystemOnMedicalKG）进行了较为系统的梳理，受益匪浅，也对该项目的进一步完善进行了一些不成熟的思考。本着分...

2020-02-02 11:01:56 4017 4

原创 Neo4j删去已建数据库数据

1. 关闭Neo4j服务器进程./neo4j stop2. 删除graph.db数据库文件cd /data/databases/rm -rf graph.db3. 重新启动Neo4j服务器./neo4j start

2020-01-29 12:35:08 1046

原创 docker常用命令及容器创建

一、创建容器并开机自启docker run docker run --name mysql57 -p 33306:3306 -e MYSQL_ROOT_PASSWORD=heyuvin -d mysql:5.7@TOC欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Ma...

2020-01-28 11:04:44 481

原创在IntelliJ IDEA中设置首字母不区分大小写的提示

File->Settings->Editor->General->Code Completion，不选中默认选中的“Match case”。

2020-01-20 08:20:29 1774

空空如也

空空如也