harry的博客

机器学习,C++,NLP,安全

(论文笔记) Deep contextualized word representations

Deep contextualized word representations1. Introduction什么是一个好的词向量能够反映出语义和语法的复杂特征.能够准确的对不同上下文进行反应.deep contextualized 词向量的特点使用理念方面:在原先的词向量模型中, 每个词对应着一...

2018-07-24 14:54:53

阅读数 2181

评论数 4

SVM对偶问题的深入理解

<p><strong>1. 支持向量机的目的是什么?</strong>&a...

2018-07-18 22:07:30

阅读数 408

评论数 0

[NLP技术]关键词提取算法-TextRank

关键词提取算法-TextRank   今天要介绍的TextRank是一种用来做关键词提取的算法,也可以用于提取短语和自动摘要。因为TextRank是基于PageRank的,所以首先简要介绍下PageRank算法。 1.PageRank算法   PageR...

2018-07-12 16:29:38

阅读数 217

评论数 0

LSF-SCNN:一种基于CNN的短文本表达模型及相似度计算的全新优化模型

如果你对自然语言处理 (natural language processing, NLP) 和卷积神经网络(convolutional neural network, CNN)有一定的了解,可以直接看摘要和LSF-SCNN创新与技术实现部分。如果能启发灵感,应用于更多的现实场景中带来效果提升,...

2018-07-12 11:30:12

阅读数 337

评论数 0

关于乱序(shuffle)与随机采样(sample)的一点探究

目录 Shuffle Sample Sample的各种实现回到random.samplerandom.sample有没有问题总结references  正文    最近一个月的时间,基本上都在加班加点的写业务,在写代码的时候,也遇到了一个有趣的...

2018-07-12 10:36:07

阅读数 317

评论数 1

如何产生好的词向量?

如何产生好的词向量? 词向量、词嵌入(word vector,word embedding)也称分布式表示(distributed representation),想必任何一个做NLP的研究者都不陌生。如今词向量已经被广泛应用于各自NLP任务中,研究者们也提出了不少产生词向量的模型并开发成实用的工...

2018-07-11 15:35:45

阅读数 92

评论数 0

文本分类的tricks

趁机总结一下之前遇到过的一些小trick吧:数据预处理时vocab的选取(前N个高频词或者过滤掉出现次数小于3的词等等)词向量的选择,可以使用预训练好的词向量如谷歌、facebook开源出来的,当训练集比较大的时候也可以进行微调或者随机初始化与训练同时进行。训练集较小时就别微调了结合要使用的模型,...

2018-07-10 16:43:43

阅读数 149

评论数 0

机器学习中使用正则化来防止过拟合是什么原理?

从知乎整理而来 1 过拟合是一种现象。当我们提高在训练数据上的表现时,在测试数据上反而下降,这就被称为过拟合,或过配。过拟合发生的本质原因,是由于监督学习问题的不适定:在高中数学我们知道,从n个(线性无关)方程可以解n个变量,解n+1个变量就会解不出。在监督学习中,往往数据(对应了方程)远...

2018-07-05 15:06:49

阅读数 351

评论数 0

统一视角 看分类问题

现在的分类学习算法太多了,有时候我们不仅要问:这么多算法,都是做的分类问题,那它们有没有一个共同的源头?如果有,那么从这个共同的源头出发,它们各自是怎么发展起来的?如果能看清这些本质,对分类学习算法的理解应该能够更加深刻. 本文尝试从一种自上而下,类似高屋建瓴的方式来为众多的分类学习算法建立一个统...

2018-06-27 16:20:10

阅读数 93

评论数 0

交叉熵和相对熵(KL散度)

说交叉熵之前先介绍相对熵,相对熵又称为KL散度(Kullback-Leibler Divergence),用来衡量两个分布之间的距离,记为DKL(p||q)DKL(p||q)D_{KL}(p||q) DKL(p||q)=∑x∈Xp(x)logp(x)q(x)=∑x∈Xp(x)log&am...

2018-06-27 14:36:59

阅读数 92

评论数 0

逻辑回归

1.简介 逻辑回归是面试当中非常喜欢问到的一个机器学习算法,因为表面上看逻辑回归形式上很简单,很好掌握,但是一问起来就容易懵逼。所以在面试的时候给大家的第一个建议不要说自己精通逻辑回归,非常容易被问倒,从而减分。下面总结了一些平常我在作为面试官面试别人和被别人面试的时候,经常遇到的一些问题。...

2018-06-27 11:11:19

阅读数 64

评论数 0

PCA 和 SVD 原理区别

最近无意中又看到了PCA和SVD,又有些新的想法。 PCA 和 SVD都是对数据进行降维,但是方法不一样。 PCA 是用特征向量来进行降维,但是很多只有方阵有特征向量。 SVD则更普遍一点,可以对一般的矩阵进行降维,本身就是一种矩阵分解方法...

2018-06-12 13:05:44

阅读数 104

评论数 0

2018中国房价暴涨和中美贸易战的深层关系

转自:公号 环球军事资讯中心 在中国,房价问题有一个铁律:越调控越暴涨。 2018刚刚进入5月,全国各地发布的调控政策数量就已经超过了115个。仅4月份一个月,全国各种房地产调控政策合计就多达33次,25个城市与部门发布调控政策,其中海南、北京、杭州等城市发布了多次房地产相关新政策。 为何...

2018-06-06 15:49:08

阅读数 6488

评论数 0

中国的互联网经济

从民众对互联网经济的热衷、支持,到政府寄予厚望、加以扶持,再到遭受普遍的质疑、批评乃至痛骂,不过匆匆数年时间。问题究竟在哪里?如果我们只将眼光局限于电商售假、网约车殒命,甚至我们只将眼光局限于资本补贴、监管不力,都不足以认识到中国互联网经济问题的实质,也无助于作出深刻的反思。本文的目的,在于提供一...

2018-06-02 18:06:10

阅读数 122

评论数 0

python list去重方法及效率

1、直观方法 li=[1,2,3,4,5,1,2,3] new_li=[] for i in li: if i not in new_li: new_li.append(i) print(new_li) 总结:这样可以做出来,但是效率不行。但是此方法保证了列表的顺序性。...

2018-06-01 13:15:01

阅读数 997

评论数 0

K-Means聚类最优k值的选取

最近做一个文本分类的项目,在最开始的时候会用到K-means的聚类方法,因此需要在文本上找到最佳的聚类数。 1. 手肘法 1.1 理论 手肘法的评价K值好坏的标准是SSE(sum of the squared errors) SSE=∑p∈Ci|p−mi|2SSE=∑p∈Ci|p−...

2018-05-31 14:45:30

阅读数 1832

评论数 0

距离度量的对比分析

余弦距离、欧氏距离和杰卡德距离度量的对比分析 1. 余弦距离 余弦距离,也称为余弦相似度 是用两个向量夹角的余弦值作为衡量两个向量差异的度量。 2. 欧式距离 欧式距离,是计算两个空间向量的欧几里得距离,也就是传统上两个点的距离,只不过这个时候点是多维的。 3. 杰卡德 两个集...

2018-05-31 13:51:19

阅读数 180

评论数 0

生成方法和判别方法的复习

监督学习可以分为生成方法与判别方法,所学到的模型可以分为生成模型与判别模型。 生成模型 生成模型由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型: P(Y|X)=P(X,Y)P(X) 这样的方法之所以称为生成方法,是因为模型表示了给定输入X产生...

2018-05-29 14:19:11

阅读数 497

评论数 0

简单的爬虫

这几天来一直在做爬虫的工作,除了因为开始因为不熟悉爬虫所以学的时候比较花时间之外,其他大多数时候都还是比较顺利,中间除了遇到xpath的问题,其他就还好。 就我目前的理解而言爬虫总共是分为三个步骤。 1. 通过URL获取网页 2. 获取网页之后对网页进行解析 3. 将解析之后需要的内容存贮...

2018-05-22 15:20:01

阅读数 50

评论数 0

5-15~5-17 七牛工作总结:足球爬虫

周末回到宿舍就凌晨两三点了,因此周一回来状态很差也没做什么工作就只是查了查关于足球点球的可以爬的网站,周二和周三就开始做爬虫了,但是因为之前没做过,做的进度很慢。 周二下午开始做,因为之前没接触过就一直在学,直到周二结束才写出来一个完整可以简单部分跑起来的爬虫程序,才知道大概爬虫的流程以及相关的...

2018-05-17 19:48:27

阅读数 101

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭