自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 资源 (1)
  • 收藏
  • 关注

原创 搜索

一知乎: Query 理解和语义召回在知乎搜索中的应用二 Hulu(邹敏):Hulu的个性化搜索引擎技术实践三 阿里文娱搜索算法实践与思考(优酷,淘票票)阿里搜索系统框架标搜索算法框架题3.2 搜索相关性2017年框架排序模型2018排序模型3.3 多模态视屏搜索标题主题识别四饿了么推荐算法演进及在线学习实践(刘全)五 搜索引擎从...

2021-05-24 20:28:28 227 1

原创 NLP面筋-平安

1、分词方法HMM CRF BERT-BiLSTM-CRF常有分词器中科院计算所NLPIRhttp://ictclas.nlpir.org/nlpir/ansj分词器https://github.com/NLPchina/ansj_seg哈工大的LTPhttps://github.com/HIT-SCIR/ltp清华大学THULAChttps://github.com/thunlp/THULAC斯坦福分词器https://nlp.stanford.edu/softwa...

2021-04-19 20:59:49 168

原创 求随机数

已知函数Random5(),可以等概率随机返回0~4任意数字,根据Random5实现Random9()解题思路:Random5()可以随机得到0~4任意数字,且概率相等,根据Random5容易得到Random2(),在根据Random2和Random5得到Random10,再有Random10得到Random9.// 已知Random5()Random2(): while True: result = Random5() if result &lt.

2021-04-12 19:44:26 207

原创 动态规划题目总结(一)--给定一个三角形求最小路径和

//评测题目: 给定一个三角形 triangle ,找出自顶向下的最小路径和。//每一步只能移动到下一行中相邻的结点上。相邻的结点 在这里指的是 下标 与 上一层结点下标 相同或者等于 上一层结点下标 + 1 的两个结点。//也就是说,如果正位于当前行的下标 i ,那么下一步可以移动到下一行的下标 i 或 i + 1 。//示例 1://输入:triangle = [[2],[3,4],[6,5,7],[4,1,8,3]]//输出:11//解释:如下面简图所示:// 2// 3 .

2021-04-12 19:30:11 187

原创 论文阅读-知识图谱学习笔记

阅读笔记 时间 论文名字 类别 摘要 发表时间 备注 2021/03/29 基于疾病知识图谱的自动问答系统优化研究 KBQA 在疾病知识图谱构建基础上,采用 AC 多模式匹配算法和语义相似度计算获取疾病症状实体,通过人工标注和 AC 多模式匹配算法相结合实现用户问题分类,将匹配的词语封装成分类字典后转换成数据库查询语言,获取相关问题答案。通过中文医学问答数据集中语料测试,本系统在回答新冠疫情相关疾病 5 类问题时的平均准确率达到86%,高于已有的疾病问答

2021-04-05 22:29:04 238

原创 知识图谱学习资料整理

一 视屏CCF YOCSEF合肥举办技术论坛“知识图谱是否真的物

2021-03-29 10:57:23 160

原创 onnx加速变慢

问题描述:将tensorflow模型转成onnx后,部署在服务器上,速度骤降,是不加速的倍原因:不可描述解决办法:docker run --cpuset-cpus="0,1" -itd docker-images

2021-02-02 15:26:28 2422 1

原创 ubuntu 装机必备软件

搜狗输入法 https://blog.csdn.net/lpCrazyBoy/article/details/80239612虚拟机 https://www.cnblogs.com/dunitian/p/9125432.html

2020-08-25 16:53:55 1047

原创 MongoDB SSL自签证书生成、应用和连接

参考博客代码连接参考环境版本MongoDB server version: 4.0.11生成SSL配置1 服务器端证书配置 1.1生成ca.pemopenssl req -out ca.pem -new -x509 -days 3650# 此处会要求配置ca.pem密码,后续将会用到 1.2生成server.pem# 生成服务器端私钥$ openssl genrsa -out server.key 2048# 生成服务器端申请文件$ openssl ...

2020-07-16 15:20:57 2013 1

原创 requests.exceptions.ConnectionError: HTTPSConnectionPool(host=‘raw.githubusercontent.com‘, port=443)

requests.exceptions.ConnectionError: HTTPSConnectionPool(host='raw.githubusercontent.com', port=443): Max retries exceeded with url: /explosion/spacy-models/master/shortcuts-v2.json (Caused by NewConnectionError('<urllib3.connection.VerifiedHTTPSConnec

2020-07-06 14:59:45 10460 2

原创 ACL2020-知识图谱论文-NER(一)

1、Named Entity Recognition without Labelled Data: A Weak Supervision Approach摘要:本文提出了一种简单但强大的方法来学习NER模型,在缺乏标签数据,通过薄弱的监督。该方法依赖于广泛的标签功能来自动标注来自目标域的文本。这些注释然后使用隐藏马尔科夫模型合并在一起,该模型捕获了标签函数的不同准确性和混淆性。在此统一标注的基础上,最终可以训练序列标记模型。我们从两个方面来评价这个方法(CoNLL 2003和来自路透社和彭博社的新.

2020-07-02 14:45:13 1606

原创 ownthink_kg 1.4亿数据快速导入Neo4j

1、环境Version: 3.5.8 Edition: Community 2、数据来源 http://www.openkg.cn/dataset/e5a5f1fb-505a-4ccc-bac5-4eb9856b667e https://www.ownthink.com/docs/kg/#_1 下载到ownthink_v2.csv文件,包含1.4亿数据$ wc -l ownthink_v2.csv140919781 ownthink_v2.csvow...

2020-06-01 17:32:01 4037 14

原创 Linux 大文件的分割与合并

1.分割 -- split命令可以指定按行数分割和按字节大小分割两种模式。(1) 按行数分割$ split -l 300 large_file.txt new_file_prefix加上-d,使用数字后缀;加上--verbose,显示分割进度:$ split -l50000 -d large_file.txt part_ --verbose(2)按字节大小分割$ split -b 10m large_file.log new_file_prefix2.合并 --..

2020-06-01 10:25:25 251

转载 Linux下在文件内部指定行(首行、末尾行等)插入内容

1、在文件的首行插入指定内容::~$ sed -i "1i#! /bin/sh -" a执行后,在a文件的第一行插入#! /bin/sh -2、在文件的指定行(n)插入指定内容::~$ sed -i "niecho "haha"" a执行后,在a文件的第n行插入echo "haha"3、在文件的末尾行插入指定内容:用第二种方法也可以。一般实现::~$ echo “haha” >> a执行后,在a文件的末尾行插入haha————————————————版..

2020-06-01 10:23:39 8776

原创 SessionExpired: WebSocket connection failure.

错误:SessionExpired: WebSocket connection failure. Due to security constraints in your web browser, the reason for the failure is not available to this Neo4j Driver. Please use your browsers development console to determine the root cause of the failure. Com

2020-05-26 14:44:17 1544

原创 minio 文件路径获取

minio docker安装从minio数据库中获取一个文件路径1、登录 localhost:9000, 通过账户密码登录2、分享路径注意:获取到的路径有效期默认位5天,并且很长,包含了过期时间等信息3、设置为长期有效(短路径)4、设置成功,可以通过url访问:localhost:9000/{path}/{filename} 或者 {域名}/{path}/{filename}例如:https://play.min.io/mrb-minio/0A4DS...

2020-05-08 18:22:39 19932 2

原创 docker compose 部署 minio

1、下载Minio镜像docker hub地址# 将官方镜像拉到本地docker pull minio/minio# 将minio 上传到自己的私有仓库docker tag docker-reg.xxxxx.com/library/minio:lastest minio/miniodocker push docker-reg.xxxxx.com/library/minio:las...

2020-04-30 16:50:36 3116

原创 Microsoft Visual C++ 14.0 is required

error: Microsoft Visual C++ 14.0 is required. Get it with "Build Tools for Visual Studio"解决方法:安装Microsoft Visual C++ 14.0百度云盘地址:链接: https://pan.baidu.com/s/1zrHpN31T47hkUeFRT9JcWw 提取码: 3j8s...

2020-04-14 18:46:32 560

原创 Mongo 常见错误

1、mongodump备份数据库报错:Failed: error writing data for collection `1111111111.qa` to disk: error reading collection: Failed to parse: { find: "qa", skip: 0, snapshot: true, $readPreference: { mode: "seco...

2020-04-02 09:06:26 4308 2

原创 百度深度学习集训营第二阶段-作业2

NLP作业2:实现CBOW模型根据下面给定的Skip-gram模型代码,修改成为CBOW模型。使用text8语料进行训练,并尝试各种花式word-embedding玩法(比如,计算同义词,推理,进行聚类,或者进行可视化分析等)或者尝试修改代码,让skip-gram训练的更快。从上面的描述中选一个点开始做,基于下面的代码,实现你的idea。#!/usr/bin/env python...

2020-03-15 13:56:57 518

原创 go mongo 查询filer书写

https://www.jianshu.com/p/40f5438d823c

2020-03-10 14:29:15 103

翻译 Multiway Attention Networks for Modeling Sentence Pairs (译文)

摘要 句子对建模对于判断两个句子之间的关系起着至关重要的作用,如意译识别、自然语言推理和答案句选择。以前的工作使用具有注意机制的神经网络取得了很有前途的结果。在本文中,我们提出了在匹配聚合框架下利用多个注意函数来匹配句子对的多路注意网络。具体来说,我们设计了四个注意功能来匹配相应句子中的单词。然后,我们将每个函数的关键信息聚合起来,并将所有函数的信息组合起来,得到最终的表示形式。实...

2020-03-07 15:02:12 816

原创 百度深度学习集训营第二阶段-作业1

作业1-1(1)下载飞桨本地并安装成功,将截图发给班主任(2)学习使用PaddleNLP下面的LAC模型或Jieba分词 LAC模型地址:https://github.com/PaddlePaddle/models/tree/release/1.6/PaddleNLP/lexical_analysis Jieba模型:https://github.com/fxsjy/jieba(3)对...

2020-03-06 01:00:24 464

原创 机器学习实战(十四)利用SVD简化数据

一、优缺点优点:简化数据,去除噪声,提高算法的结果。 缺点:数据的转换可能难以理解 适用数据类型:数值型数据二、求解步骤 参考博客...

2020-01-06 22:39:10 132

原创 go 语言学习踩过的坑

1、安装iris https://blog.csdn.net/dzhongjie/article/details/811529832、安装iris,报错,长时间无反应,https://goproxy.io/3、学习网站http://c.biancheng.net/view/3990.html4、跨包调用,函数首字母必须大写...

2019-10-29 14:37:13 169

原创 NLP-QA

QA跟踪数据集:https://www.imooc.com/article/247661.DuReader(百度):https://www.imooc.com/article/24845?block_id=tuijian_wz所有的问题、原文都来源于实际数据(百度搜索引擎数据和百度知道问答社区),答案是由人类回答的。 数据集中包含大量的之前很少研究的是非和观点类的样本。 每个问...

2019-09-25 17:22:08 730

翻译 阅读论文:Question Answering

概述:问答(Question Answering)对知识的追求是深刻的人类,因此实际上并不奇怪一旦有电脑,我们就会问他们问题。到了早期20世纪60年代,系统使用了两个主要的问答模式:信息检索和以知识为基础。为了回答有关棒球统计数据的问题或科学事实。甚至想象中的计算机都进入了艺术。仔细考虑,Douglas Adams在The Hitchhiker's Galaxy指南中发明的计算...

2019-09-23 22:36:45 1144

原创 NLP 论文网址

斯坦福大学《语音与语言处理》之QA:https://web.stanford.edu/~jurafsky/slp3/《语音与语言处理》:https://web.stanford.edu/~jurafsky/前沿论文:https://paperswithcode.com/最新论文:https://deeplearn.org/NLP各任务表现最好的算法论文以及代码:http://nl...

2019-09-17 13:20:48 509

原创 CS224 (十六) DMN和问答系统

DMN(Dynamic Memory Networks) 动态注意力网络

2019-08-26 16:33:14 145

原创 CS224(九) 机器翻译和高级RNN(LSTM、GRU)

Part 1、机器翻译Part 2、基于统计的机器翻译系统Part 3、深度学习Part 4、基于RNN的机器翻译Part 5、RNN翻译模型的扩展Part 6、RNN的优化 GRN LSTM ...

2019-07-29 23:39:03 210

原创 CS224(十) 神经机器翻译和注意力机制

Part 1、什么是NMTPart 2、NMT模型Part 3、NMT的四大优势端到端的训练方式 分布式表示 更好的利用上下文 生成流畅的文本Part 4、Attention(注意力机制)...

2019-07-29 23:38:44 148

原创 CS224(四) Word Window分类与神经网络

Part 1、分类背景Part 2、更新分类器的词向量Part 3、Window classification和交叉熵损失求导技巧Part 4、单层神经网络Part 5、最大间隔损失和反向传播

2019-07-23 10:10:53 141

原创 CS224(五) 反向传播和项目指导

Part 1、从单层到多层神经网络Part 2、后向传播Part 3、反向传播的不同描述和观点Part 4、项目指导

2019-07-23 09:58:28 97

原创 CS224(八) RNN和语言模型

Part 1、语言模型语言模型就是计算一个单词序列(句子)的概率(P(w1,…,wm)P(w1,…,wm))的模型。听上去很简单,做起来很难;听上去没什么用处,但用处非常多。比如在机器翻译中,判断译文序列中一种词序的自然程度高于另一种,判断一种用词选择优于另一种。传统的语言模型:为了简化问题,必须引入马尔科夫假设,句子的概率通常是通过待预测单词之前长度为nn的窗口建立条件概率来预测:...

2019-07-22 16:58:52 157

原创 CS224(六) 句法依存分析

Part 1、句法结构:一致性和相关性1、语言学上的两种观点:(1)短语结构文法这种短语语法用固定数量的rule分解句子为短语和单词、分解短语为更短的短语或单词……一个取自WSJ语料库的短语结构树示例:(2)依存结构:用单词之间的依存关系来表达语法。如果一个单词修饰另一个单词,则称该单词依赖于另一个单词。一个由HanLP输出的依存句法树如下:Part 2、依存句法这...

2019-07-19 09:16:39 244

原创 CS224(七) Tensorflow

本课时主要讲Tensorflow框架的使用,请参考书本《TensorFlow深度学习算法原理与编程实战》

2019-07-18 16:26:17 86

转载 CS224(三)高级词向量表示 More Word Vectors

参考笔记Part 1、回顾word2vec的主要思想遍历语料库中的每个词 预测中心词的上下文  然后在每个窗口中计算梯度做随机梯度下降法(SGD)随机梯度下降法与词向量每个窗口最多有2m+1个单词,所以梯度矩阵是很稀疏的 我们只要更新经常出现词向量: 方案:所以每次更新只更新WW矩阵中的少数列,或者为每个词语建立到词向量的哈希映射Part 2、Part 3、Part...

2019-07-17 13:34:40 76

原创 CS224(二) 词向量的表示 word2vec

Part 1、单词的意思1、如何表示一个词语的意思:一个单词和短语代表的想法 说话人通过使用语言或者手势想要表达的想法 文学或者艺术作品要表达的情感,是语言和思想的融合2、计算机如何处理词语的意思过去几个世纪里一直用的是分类词典。计算语言学中常见的方式是WordNet那样的词库。比如NLTK中可以通过WordNet查询熊猫的hypernyms (is-a,上位词),得到“食肉...

2019-07-14 22:58:24 148

原创 CS224n(一) 自然语言处理与深度学习简介

参考笔记Part 1、什么是自然语言处理 1、简介 这是一门计算机科学、人工智能以及语言学的交叉学科。虽然语言只是人工智能的一部分(人工智能还包括计算机视觉等),但它是非常独特的一部分。这个星球上有许多生物拥有超过人类的视觉系统,但只有人类才拥有这么高级的语言。 自然语言处理的目标是让计算机处理或说“理解”自然语言,以完成有意义的任务,比如订机票购物或QA等。完全理...

2019-07-12 13:15:43 1184

原创 Tensorflow 常用函数

1、tf.constant_initializer()也可以简写为tf.Constant()初始化为常数,这个非常有用,通常偏置项就是用它初始化的。由它衍生出的两个初始化方法:a、 tf.zeros_initializer(), 也可以简写为tf.Zeros()b、tf.ones_initializer(), 也可以简写为tf.Ones()2、tf.truncated_no...

2019-07-10 11:03:18 64

RE2020.txt

该数据集是百度2020关系抽取数据集,包括训练集、验证集和测试集、schema.json。本次竞赛数据集共包含 48个已定义好的schema和超过21万中文句子,其中包括17万训练集,2万验证集和2万测试集.

2020-05-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除