机器学习与深度学习
文章平均质量分 85
机器学习与深度学习的一些笔记与总结
lerry_lca
路漫漫其修远兮,吾将上下而求索。
展开
-
FAQ智能问答系统设计与实现
FAQ(FAQ,frequently-asked questions)问答系统表示常见问题问答系统,常用于一些特定领域的智能客服,将用户经常问到的高频问答对索引起来,当新的提问命中时可以快速回答,准确而高效。本文介绍一个简单的FAQ问答系统实现。基于检索和排序的两阶段框架,检索阶段基于Elasticsearch检索引擎、排序阶段基于语义匹配深度学习模型。后端基于SpringBoot系列框架。该系统实现了人机对话功能,可以进行单轮或者多轮的问答,同时提供了微服务版本,增加了一些知识库管理功能。原创 2022-04-02 18:29:38 · 17099 阅读 · 2 评论 -
利用预训练语言模型ERNIE提供文本相似度(语义匹配)计算服务的简单实例
1. ERNIE简介这里的ERNIE是指百度提出的知识增强的语义表示模型 ERNIE(Enhanced Representation from kNowledge IntEgration),并发布了基于 PaddlePaddle 的开源代码与模型 。ERNIE在结构上和BERT是一样的,只是改进了BERT的预训练阶段,增加了实体等先验知识。关于ERNIE的介绍可以看机器之心的这篇博客,这里不再赘述。2. 如何做相似度计算ERNIE和BERT一样都提供了句对分类任务,输入为一对句子,输出为这对句子原创 2021-02-21 21:16:18 · 2131 阅读 · 12 评论 -
A Pseudo-relevance feedback framework combining relevance matching...泛读笔记
题目:A Pseudo-relevance feedback framework combining relevance matching and semantic matching for information retrieval来源:2019,Elsevier,Information Processing and Management地址:https://doi.org/10.1016/j.ipm.2020.102342Title一种结合关联匹配和语义匹配的信息检索伪关联反馈框架Motiva原创 2020-11-06 21:42:03 · 473 阅读 · 0 评论 -
短文本语义匹配/文本相似度框架(SimilarityNet, SimNet),基于bow_pairwise模式及框架原理介绍
简介短文本语义匹配(SimilarityNet, SimNet)是百度一个计算短文本相似度的框架,可以根据用户输入的两个文本,计算出相似度得分。句子1 句子2 相似度车头 如何 放置 车牌 前 牌照 怎么装 0.8512318730354309车头 如何 放置 车牌 如何 办理 北京 车牌 0.8042252361774445车头 如何 放置 车牌 后 牌照 怎么装 0.8347993791103363可以看到这里的句子都是分词后的,这也原创 2020-06-15 21:23:26 · 2774 阅读 · 3 评论 -
使用paddle serving保存simnet可服务模型问题
简要介绍simnet是百度开源的短文本语义相似度模型;paddle是百度开源的深度学习框架;paddle serving是提供模型部署服务的工具,可以将训练好的模型作为服务启动,方便其他应用调用。问题及解答如题,已提issue,详情见使用paddler serving保存simnet可服务模型问题 #4624...原创 2020-06-11 10:40:08 · 208 阅读 · 0 评论 -
pandas操作时出现SettingWithCopyWarning的解决方法
使用pandas库在对dataframe进行操作时出现了SettingWithCopyWarning,我的情况是这样的:#我的数据情况df 词1 词2 标签 0 成功 胜利 1 1 什么情况 ...原创 2020-05-08 14:48:23 · 2438 阅读 · 0 评论 -
pandas DataFrame按比例随机采样以达到拆分数据集的作用
1.创建/加载数据集data = { '水果':['苹果','梨','草莓','香蕉','西瓜'], '价格':[2,6,1,8,3] }df=pd.DataFrame(data)df 水果 价格 0 苹果 2 ...原创 2020-04-09 16:35:49 · 14907 阅读 · 0 评论 -
安装CUDA后安装PyTorch,pip install torch 太慢【解决办法】 实测可行torch.cuda.is_available() return True
最近学习深度学习,训练模型时发现用CPU太慢,恰好电脑有一张NVIDIA的1060显卡,所以就打算下载NVIDIA的运算平台CUDA来使用GPU加快训练了。我的python版本是3.7,装完CUDA10.2后,接下来就是安装pytroch了。由于我安装的是最新的稳定版,所以使用conda安装发生了找不到Package的问题,于是我用pip安装在命令行输入pip instal...原创 2020-02-29 15:31:59 · 3571 阅读 · 10 评论 -
svm_light和libsvm对比测试
测试概述svm_light和libsvm是实现支持向量机的不同工具包,这里在相同数据集(默认参数)下,测试两种工具的训练效果(主要对比训练时间)。svm_light可在官网下载http://www.cs.cornell.edu/people/tj/svm_light/?tdsourcetag=s_pctim_aiomsg本次实验下载了windows平台的可执行程序svm_light...原创 2019-08-17 15:33:18 · 726 阅读 · 0 评论 -
PCA LDA降维测试
测试概述该实验的主要目的是测试LDA(Linear Discriminant Analysis,线性判别分析)和PCA(Principal components analysis,主成分分析)的降维效果(主要是训练时间)。训练模型使用SVM算法。降维(PCA LDA)和训练(SVM)均是调用python的sklearn库,所有代码都在程序中给出。每次使用相同数据集,通过三种不同方式测试,分...原创 2019-08-17 15:28:48 · 969 阅读 · 0 评论 -
读取libsvm格式的数据集或将其转换成csv格式
libsvm官网提供了一些好的数据集可以用于机器学习,但这些数据集是libsvm格式的(不明白这种格式的自行百度/谷歌)。有时候我们需要用这些libsvm格式的数据集,但目前没有找到很使用的工具提供读取或转换。因此根据自己的理解写了一个简单的python程序,提供读取和转换两个功能。文件说明在同一目录下建立三个文件夹code,input,ouput code ...原创 2019-08-16 13:00:41 · 2474 阅读 · 0 评论 -
通过机器学习得到样本的特征权重
描述:计算每个特征对样本集进行划分所获得的信息增益,然后做归一化处理可以得到每个特征的权重目标:样本降维一种算法策略:参考决策树的划分选择首先引入概念信息熵、信息增益。信息熵(information entropy)是度量样本几何纯度最常用的一种指标。假定样本集合D中第k类样本所占的比例为,则D的信息熵定义为 ...原创 2019-07-30 18:52:32 · 7664 阅读 · 4 评论