机器学习
文章平均质量分 72
alwayschasing
这个作者很懒,什么都没留下…
展开
-
句子向量表示模型概述
背景在很多自然语言处理人物中,例如文本匹配,智能问答等都都需要衡量两个句子的相似度,一般情况我们采用将句子编码为向量表示,然后利用两个向量之间的相似度来表示句子的相似度,从而将自然语言环境下的问题转为来可以机器处理的问题。本文对最新的几种句子向量编码表示进行介绍。模型介绍SBERT(Sentence-BERT)论文:Sentence-BERT: Sentence Embeddings us...原创 2020-04-16 18:13:37 · 1239 阅读 · 0 评论 -
numpy中数组介绍
numpy数组介绍原创 2016-03-07 20:16:27 · 570 阅读 · 0 评论 -
K-近邻算法
K-近邻算法采用测量不同特征值之间的距离方法进行分类。 优点:精度高、对异常值不敏感、无数据输入假定 缺点:计算复杂度高、空间复杂度高 适用数据范围:数值型和标称型 工作原理:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签, 即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集原创 2016-02-16 18:17:08 · 455 阅读 · 0 评论 -
PRML 读书笔记-Chapter1
reinforcement learningFinding suitable actions to take in a given situation in order to maximize a reward. A general feature of reinforcement learning is the trade-off between exploration,in which the原创 2016-05-09 22:51:00 · 335 阅读 · 0 评论 -
How to Generate a Good Word Embedding(学习笔记)
word embedding(词嵌入):一种分布式此表示(distributed word representation),可以同时捕获词的语义以及语法信息。本文主要比较已有的各种词嵌入模型与方法,并通过实验的视角详细分析在训练词嵌入模型的需要注意的一些重要点,包括模型建立、训练数据集设计、参数选择。首先要弄清楚模型的建立,所有的模型基本都基于:共同出现在相似上下文环境中的词倾向于拥有相似的含义(w原创 2017-01-15 16:11:35 · 2017 阅读 · 0 评论 -
Spark RDD介绍
概念Spark是一个集群计算系统,主要抽象为一个弹性分布式数据集(resilient distributed data set,RDD)。RDD创建Hadoop InputForm(如HDFS)其他RDD转换通过转换集合类数据额结构来创建(例如List和Map)Java或Scala集合对象以及其他持久数据存储库创建RDD的两种操作动作有reduce()collect()count()原创 2017-05-22 15:07:42 · 843 阅读 · 0 评论 -
排序学习概述
排序学习排序学习简单说就是在排序任务中使用机器学习的方法,在信息检索、自然语言处理与数据挖掘等许多领域中有重要的应用。 用文档检索来举例,如下图: 排序学习的核心就是要学习到一个排序模型f(q,d) , q 表示查询,d 表示文档,然后利用排序模型,在给定查询q的时候给出相关文档的排序。传统排序,例如BM25: 基于条件概率分布,f(q,d)=p(r|q,d)f(q,d)=p(...原创 2018-05-26 15:57:34 · 5298 阅读 · 1 评论 -
谷歌BERT 学习
最近谷歌放了个大招,开源了他们最新的自然语言模型BERT,正好手头有个文本分类的任务,打算拿来用用,特此记录一下学习过程,如果错误,还望指正。论文地址:https://arxiv.org/abs/1810.04805开源github地址:https://github.com/google-research/bert摘要BERT(怎么读随便),其实是Bidirectional Encoder...原创 2018-11-13 20:36:59 · 703 阅读 · 0 评论