harry_128-CSDN博客

转载 (论文笔记) Deep contextualized word representations

Deep contextualized word representations1. Introduction什么是一个好的词向量能够反映出语义和语法的复杂特征.能够准确的对不同上下文进行反应.deep contextualized 词向量的特点使用理念方面:在原先的词向量模型中, 每个词对应着一个向量, 但是这个模型是根据一个句子赋予每个词汇向量. 因此对于一个 n-tokens 的输入NLP任...

2018-07-24 14:54:53 5919 2

转载 SVM对偶问题的深入理解

<p><strong>1. 支持向量机的目的是什么？</strong></p> 对于用于分类的支持向量机来说，给定一个包含正例和反例（正样本点和负样本点）的样本集合，支持向量机的目的是寻找一个超平面来对样本进行分割，把样本中的正例和反例用超平面分开，但是...

2018-07-18 22:07:30 10821 4

转载 [NLP技术]关键词提取算法-TextRank

关键词提取算法-TextRank　　今天要介绍的TextRank是一种用来做关键词提取的算法，也可以用于提取短语和自动摘要。因为TextRank是基于PageRank的，所以首先简要介绍下PageRank算法。1.PageRank算法　　PageRank设计之初是用于Google的网页排名的，以该公司创办人拉里·佩奇（Larry Page）之姓来命...

2018-07-12 16:29:38 909

转载 LSF-SCNN：一种基于CNN的短文本表达模型及相似度计算的全新优化模型

如果你对自然语言处理 (natural language processing, NLP) 和卷积神经网络（convolutional neural network, CNN）有一定的了解，可以直接看摘要和LSF-SCNN创新与技术实现部分。如果能启发灵感，应用于更多的现实场景中带来效果提升，那才是这篇文章闪光的时刻。如果你没有接触过NLP和CNN，也不在担心，可以从头到尾听我娓娓道来。有任何...

2018-07-12 11:30:12 3201 3

转载关于乱序（shuffle）与随机采样（sample）的一点探究

目录 Shuffle Sample Sample的各种实现回到random.samplerandom.sample有没有问题总结references  正文 　　最近一个月的时间，基本上都在加班加点的写业务，在写代码的时候，也遇到了一个有趣的问题，值得记录一下。　　简单来说，需求是从一个字典（python dict）中随机选出K个满足条件的key。代码如下（python2...

2018-07-12 10:36:07 4755

转载如何产生好的词向量？

如何产生好的词向量？词向量、词嵌入（word vector，word embedding）也称分布式表示（distributed representation），想必任何一个做NLP的研究者都不陌生。如今词向量已经被广泛应用于各自NLP任务中，研究者们也提出了不少产生词向量的模型并开发成实用的工具供大家使用。在使用这些工具产生词向量时，不同的训练数据，参数，模型等都会对产生的词向量有所影响，那么...

2018-07-11 15:35:45 734

原创文本分类的tricks

趁机总结一下之前遇到过的一些小trick吧：数据预处理时vocab的选取（前N个高频词或者过滤掉出现次数小于3的词等等）词向量的选择，可以使用预训练好的词向量如谷歌、facebook开源出来的，当训练集比较大的时候也可以进行微调或者随机初始化与训练同时进行。训练集较小时就别微调了结合要使用的模型，这里可以把数据处理成char、word或者都用等有时将词性标注信息也加入训练数据会收到比较好的效果至于...

2018-07-10 16:43:43 861 1

原创机器学习中使用正则化来防止过拟合是什么原理？

从知乎整理而来1过拟合是一种现象。当我们提高在训练数据上的表现时，在测试数据上反而下降，这就被称为过拟合，或过配。过拟合发生的本质原因，是由于监督学习问题的不适定：在高中数学我们知道，从n个（线性无关）方程可以解n个变量，解n+1个变量就会解不出。在监督学习中，往往数据（对应了方程）远远少于模型空间（对应了变量）。因此过拟合现象的发生，可以分解成以下三点：有限的训练数据不能完全反映出一...

2018-07-05 15:06:49 2192

转载统一视角看分类问题

现在的分类学习算法太多了，有时候我们不仅要问：这么多算法，都是做的分类问题，那它们有没有一个共同的源头？如果有，那么从这个共同的源头出发，它们各自是怎么发展起来的？如果能看清这些本质，对分类学习算法的理解应该能够更加深刻. 本文尝试从一种自上而下，类似高屋建瓴的方式来为众多的分类学习算法建立一个统一的视角. 通常，一个学习过程会涉及到3个步骤：提出假设—>建立模型(如凸优化问题)—>求...

2018-06-27 16:20:10 550

原创交叉熵和相对熵(KL散度)

说交叉熵之前先介绍相对熵，相对熵又称为KL散度（Kullback-Leibler Divergence），用来衡量两个分布之间的距离，记为DKL(p||q)DKL(p||q)D_{KL}(p||q)DKL(p||q)=∑x∈Xp(x)logp(x)q(x)=∑x∈Xp(x)log p(x)−∑x∈Xp(x)log q(x)=−H(p)−∑x∈Xp(x)log q(...

2018-06-27 14:36:59 600

原创逻辑回归

1.简介逻辑回归是面试当中非常喜欢问到的一个机器学习算法，因为表面上看逻辑回归形式上很简单，很好掌握，但是一问起来就容易懵逼。所以在面试的时候给大家的第一个建议不要说自己精通逻辑回归，非常容易被问倒，从而减分。下面总结了一些平常我在作为面试官面试别人和被别人面试的时候，经常遇到的一些问题。2.正式介绍如何凸显你是一个对逻辑回归已经非常了解的人呢。那就是用一句话概括它！**逻...

2018-06-27 11:11:19 313

原创 PCA 和 SVD 原理区别

最近无意中又看到了PCA和SVD，又有些新的想法。PCA 和 SVD都是对数据进行降维，但是方法不一样。PCA 是用特征向量来进行降维，但是很多只有方阵有特征向量。 SVD则更普遍一点，可以对一般的矩阵进行降维，本身就是一种矩阵分解方法...

2018-06-12 13:05:44 1276

转载中国的互联网经济

从民众对互联网经济的热衷、支持，到政府寄予厚望、加以扶持，再到遭受普遍的质疑、批评乃至痛骂，不过匆匆数年时间。问题究竟在哪里？如果我们只将眼光局限于电商售假、网约车殒命，甚至我们只将眼光局限于资本补贴、监管不力，都不足以认识到中国互联网经济问题的实质，也无助于作出深刻的反思。本文的目的，在于提供一个更为广阔的视角，去分析中国互联网经济各类问题的根源。这不是一篇适合快读的文章，希望读者稍有耐心，...

2018-06-02 18:06:10 892

原创 python list去重方法及效率

1、直观方法li=[1,2,3,4,5,1,2,3]new_li=[]for i in li: if i not in new_li: new_li.append(i)print(new_li)总结：这样可以做出来，但是效率不行。但是此方法保证了列表的顺序性。2、利用set的自动去重功能li=[1,2,3,4,5,1,2,3]li=list(set(...

2018-06-01 13:15:01 22434

原创 K-Means聚类最优k值的选取

最近做一个文本分类的项目，在最开始的时候会用到K-means的聚类方法，因此需要在文本上找到最佳的聚类数。1. 手肘法1.1 理论手肘法的评价K值好坏的标准是SSE（sum of the squared errors）SSE=∑p∈Ci|p−mi|2SSE=∑p∈Ci|p−mi|2SSE= \sum_{p\in C_i}|p-m_i|^2其中 CiCiC_i代表第iii...

2018-05-31 14:45:30 22126 5

原创距离度量的对比分析

余弦距离、欧氏距离和杰卡德距离度量的对比分析1. 余弦距离余弦距离，也称为余弦相似度是用两个向量夹角的余弦值作为衡量两个向量差异的度量。2. 欧式距离欧式距离，是计算两个空间向量的欧几里得距离，也就是传统上两个点的距离，只不过这个时候点是多维的。3. 杰卡德两个集合A和B交集元素的个数在A、B并集中所占的比例，称为这两个集合的杰卡德系数，用符号 J(A,B) 表示...

2018-05-31 13:51:19 1311

原创生成方法和判别方法的复习

监督学习可以分为生成方法与判别方法，所学到的模型可以分为生成模型与判别模型。生成模型生成模型由数据学习联合概率分布P(X,Y)，然后求出条件概率分布P(Y|X)作为预测的模型，即生成模型：P(Y|X)=P(X,Y)P(X)这样的方法之所以称为生成方法，是因为模型表示了给定输入X产生输出Y的生成关系。典型的生成模型有：朴素贝叶斯法和隐马尔可夫模型判别模型判别方法由数据直接...

2018-05-29 14:19:11 2636 1

原创简单的爬虫

这几天来一直在做爬虫的工作，除了因为开始因为不熟悉爬虫所以学的时候比较花时间之外，其他大多数时候都还是比较顺利，中间除了遇到xpath的问题，其他就还好。就我目前的理解而言爬虫总共是分为三个步骤。 1. 通过URL获取网页 2. 获取网页之后对网页进行解析 3. 将解析之后需要的内容存贮起来获取网页这一步因为是涉及到问url要东西，因此会面临反爬，编码格式，请求头以及cook...

2018-05-22 15:20:01 227

原创 5-15~5-17 七牛工作总结：足球爬虫

周末回到宿舍就凌晨两三点了，因此周一回来状态很差也没做什么工作就只是查了查关于足球点球的可以爬的网站，周二和周三就开始做爬虫了，但是因为之前没做过，做的进度很慢。周二下午开始做，因为之前没接触过就一直在学，直到周二结束才写出来一个完整可以简单部分跑起来的爬虫程序，才知道大概爬虫的流程以及相关的库的操作，不过最大的收获或许是在过程中让自己更习惯于同人交流，在沟通中解决问题，这让我学习的速度一下子...

2018-05-17 19:48:27 886 1

原创 5-11~5-12成都29所，10所参观记录

背景互联网企业给计算机学生的价码越来越高，传统的军工背景研究所越来越难招到计算机背景的学生，另外计算机又越来越重要。因此才有了学校包吃包住包机票让我们计算机学院四川籍的学生去成都的研究所参观的活动。我是五月十号晚上去的成都，九点钟的飞机，在武林门机场大巴等老乡的时候，等到七点老乡才到，而且我们问了才知道原来老乡已经上车了马上要走了。幸好我们问了一句不然还在等（以后要沉住气）。到了机场之后，安...

2018-05-16 20:50:43 8146

原创七牛云-5.02到5.08-杂记

来七牛实习快一周了，在杭州AtLab实习，目前做视频相关，目前总体感觉不错吧（生活很规律了）。因为目前还没与搬新办公室所以现在还在会议室办公，电脑公司配的macbook pro 用起来感觉不错，不过承诺的早餐和夜宵要等到搬了新办公室才能兑现。其他福利就没有了，当时也是觉得地方离学校很近骑车半个小时以内。六天去除掉两天周末，其实只有四天，前两天完成报道手续，开通权限，配置电脑，看目前项目的...

2018-05-08 18:57:59 246

原创 C++二进制完成加减乘除

首先介绍计算机的二进制码二进制常用的有原码，反码和补码，他们都是由最左边的一个符号位和右边的数值位构成。在计算机中为了更低成本的计算，数据都是用补码来存储和运算的。原码最高位表示符号位（0代表正数，1代表负数）。剩下的位数，是这个数的绝对值的二进制。比如一个int变量大小为4字节，在32位的编译器中的二进制表示就是0000000000000000000000000000000...

2018-05-01 19:34:24 19176 4

原创剑指offer-数组中只出现一次的数字

题目描述：一个整型数组里除了两个数字之外，其他的数字都出现了两次。请写程序找出这两个只出现一次的数字。思路：刚看到题目的时候我是想到用map代码如下class Solution {public: void FindNumsAppearOnce(vector<int> data,int* num1,int *num2) { sort(da...

2018-04-28 23:13:15 120

原创微软实习面试经历-2018

这次微软实习面试是投的自然语言处理的岗位，被分配到了微软小冰的组进行面试，面试一共是三轮技术面，在苏州进行（我学校在杭州，微软还会报销车费），三面结束后会告诉面试的评价以及结果。实习时间原本安排的下午两点，但是我到的比较早刚好遇到十点半那一批就跟着一起去面试了。面试还是很快的，排除中间吃午饭的时间，大概面试总的时间在四五个小时左右。第一轮是技术面，面试官上来就是问我一个算法题，找到最大的k个数，很经

2018-04-27 22:59:03 10426 3

转载【数据挖掘面经】腾讯+百度+华为（均拿到sp offer）--转

最近秋招也已经慢慢接近尾声了，从去年 8 月底开始，先后参加了 datacastle ，阿里天池，牛客网各自举办的数据挖掘比赛（都是 top10 ），今年 4 月份又先后去百度，腾讯实习，到现在秋招快结束，也将近一年的时间，最终拿到手的比较有分量的 offer 主要是腾讯，百度，华为三家企业的 offer ，都是 sp ，下面就将过去一年的一些经验做一下小总结，不一定是最合适的方法，但是当毫无头绪的

2018-04-27 22:58:39 623

原创进程间通信和线程间通信的几种方式

进程和线程的区别：对于进程来说，子进程是父进程的复制品，从父进程那里获得父进程的数据空间，堆和栈的复制品。而线程，相对于进程而言，是一个更加接近于执行体的概念，可以和同进程的其他线程之间直接共享数据，而且拥有自己的栈空间，拥有独立序列。共同点：它们都能提高程序的并发度，提高程序运行效率和响应时间。线程和进程在使用上各有优缺点。线程执行开销比较小，但不利于资源的管理和保护，而进程相反。同时，线程适

2018-04-27 22:58:08 2279

原创剑指offer-数组中的逆序对

题目描述在数组中的两个数字，如果前面一个数字大于后面的数字，则这两个数字组成一个逆序对。输入一个数组,求出这个数组中的逆序对的总数P。并将P对1000000007取模的结果输出。即输出P%1000000007思路：遇到该问题的时候，最直观的方法是用两个for循环进行求解，复杂度为O(n2)O(n^2)。理所当然的超时了。然后思考其他解决方法，看能不能利用已经遍历比较过的信息，进行求解。先考虑从

2018-04-27 22:57:17 110

原创剑指offer-丑数

题目描述：把只包含因子2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14不是，因为它包含因子7。习惯上我们把1当做是第一个丑数。求按从小到大的顺序的第N个丑数。题目思路：代码：class Solution {public: int GetUglyNumber_Solution(int index) { if(index<7)

2018-04-27 22:56:37 112

原创剑指offer- 把数组排列成最小的数字

题目描述：输入一个正整数数组，把数组里所有数字拼接起来排成一个数，打印能拼接出的所有数字中最小的一个。例如输入数组{3，32，321}，则打印出这三个数字能排成的最小数字为321323。解决思路：可以看出我们对于第一位数字不一样的数字是很好比较大小的，对于第一位相同的数字，我们会比较第二位的大小。在这一点上很像字符串的比较，因此我们可以考虑用排序将整个数组进行排序，然后相加。排序规则是：将两个数

2018-04-27 22:56:11 391

原创剑指offer-复杂链表复制

题目：输入一个复杂链表（每个节点中有节点值，以及两个指针，一个指向下一个节点，另一个特殊指针指向任意一个节点），返回结果为复制后复杂链表的head。（注意，输出结果中请不要返回参数中的节点引用，否则判题程序会直接返回空）思路：自己最开始是使用递归的方法，但是空间不够。随后用了一个分三步的方法：（1）首先插入复制的节点到每一个原始节点之后，（2）调节复制节点的random指针，（3）调节

2018-04-27 22:55:28 131

原创机器学习__线性模型

上一次看《机器学习》已经是很久之前了，很多都记得模糊了，所以最近认真的再复习一遍。一，线性回归（Linear Regression）线性回归是一种有监督模型，线性回归试图使用一个线性方程来对数据进行拟合从而达到比较好的预测输出（形如y=w⃗ x+by = \vec w x+b）。首先给定数据集的表示形式D={(x⃗ 1,y1),(x⃗ 2,y2),⋯,(x⃗ m,ym)}D= \{(\vec x_

2018-04-27 22:54:48 3470

原创 18年4/21 拼多多面试-算法岗

我是投的是拼多多算法岗（自然语言处理）原本是今天上午十点确定的拼多多面试时间。但是自己因为前一晚有事情忙到很晚，导致第二天睡过头，最后十点二十多的时候，拼多多hr打电话过来我才想起来这回事。然后抓紧时间赶到面试现场，参加面试。面试等待时间不长，很快就轮到自己了，一共有三轮面试：技术面试，HR面试，技术面试。第一轮技术面试第一轮技术面试是一个看起来比较严肃其实人比较nice的一个程序员小哥作为我的

2018-04-27 22:53:57 7592

harry的博客