2017年12月_zkq_1986

转载 BAT机器学习面试题及解析（296-300题）

296.一般，k-NN最近邻方法在（ A）的情况下效果较好。A．样本较多但典型性不好 B．样本呈团状分布C．样本较少但典型性好D．样本呈链状分布297.下列哪些方法可以用来对高维数据进行降维（A B C D E F）A LASSOB 主成分分析法C 聚类分析D 小波分析法E 线性判别法F 拉普拉斯特征映射解析：lasso通过参

2017-12-31 19:51:38 599

原创【特征工程】特征创建（属性创建）

特征创建也称属性创建包括，特征提取，映射数据到新的空间，二次特征（特征构造）1. 特征提取，肯定就生成新的特征。2. 将数据映射到新的空间，扩维或降维，也会形成性的特征。3. 二次特征，通过基础特征构造出新的特征。

2017-12-29 17:42:05 2134

转载【数据挖掘】属性的概念

1、属性：一个数据字段，表示数据对象的一个特征。（属性（数据挖掘和数据库人员使用）、维（数据仓库）、特征（机器学习）、变量可以互换实用（统计学家使用）） 2、标称属性：标称意味着“与名称相关”；标称属性的值是一些符号或失误的名称。每个只代表某种类别、编码或者状态，因而标称属性又被堪称是分类的。例如，人的属性->头发颜色（黑、白、棕、红、黄...）和婚姻状况（未婚、已婚、离异...

2017-12-29 14:35:13 3137

原创【未来】未来的一个发展方向

1 量子计算，量子加密，通信2 多体智能，博弈论3 图计算，少样本下的知识推理4 大内存计算5 分布式计算6 区块链比特币7 自动驾驶8

2017-12-29 14:16:12 279

原创【python】python3实现单例模式

class A(object): __instance = None def __new__(cls, *args, **kwargs): if cls.__instance is None: cls.__instance = super(A, cls).__new__(cls) return cls.__insta

2017-12-29 10:43:56 272

原创【数据预处理】数据预处理概述

数据预处理包括，数据清洗，数据集成，数据规约，数据变换- - 数据清理：可以用来清楚数据中的噪声，纠正不一致。 - - 数据集成：将数据由多个数据源合并成一个一致的数据存储，如数据仓库。 - - 数据归约：可以通过如聚集、删除冗余特征或聚类来降低数据的规模。 - - 数据变换：(例如，规范化)可以用来把数据压缩到较小的区间，如0.0到1.0。这些技术不是排斥的，可以一起使用

2017-12-27 14:23:52 2338

原创【热度排行】热度排行算法

热度排行算法:点击热度*权重+时间衰减*权重 reddit

2017-12-26 11:16:00 4405

原创【排序】用Python实现八大排序算法--堆排序

#获得大顶堆def adjustHeap(ls,start,end): while start*2 j = start * 2 if j j+=1 if ls[start] ls[start],ls[j]=ls[j],ls[start] start

2017-12-26 10:41:27 292

原创【数学】共轭分布

先验分布与后验分布如果分布函数相同，就称他们为共轭分布。此时，先验分布也被称为共轭先验分布。

2017-12-24 18:53:39 354

原创【数学】Beta分布

函数f(x)在[0,1]上的积分，不一定等于1。通过引入alpha和beta两个参数，使得f(x)在[0,1]上的积分为1。这种情况就称为Beta分布。

2017-12-24 18:36:57 1712

原创【深度学习】迁移学习

利用网络上或者自己用其他数据集训练好的网络，通过冻结该网络部分权重，来训练当前数据集。如果当前数据集越小，那么冻结的部分就越大，比如我们要调整的权重只在softmax一块；如果当前数据集越小，那么冻结的部分就少些，比如我们要调整的权重为尾部的几层；如果当前数据集很多，那么就不冻结网络，而是使用该网络的初始权重。

2017-12-23 20:17:52 424

原创【LDA】LDA主题模型

LDA是一个概率生成模型。认为文档是由词袋中的词按一定概率生成。对于语料集中的每篇文档，其生成过程是：首先，从文档的所有主题分布中选取一个主题，这个过程服从所有主题的多项式分布。同时文档所有主题服从Dirichlet分布。其次，从选取的主题中选取一个词，这个过程也是服从多项式分布。重复上面的操作，这样一篇文档就生成了。再重复文档的生成过程，一个文档集也就生成。 LDA(L...

2017-12-23 18:01:11 576

原创【深度学习】Inception结构

你不用考虑conv层到底是用1*1，3*3，还是5*5。Inception把这些conv的各filter大小类型合在一起，再加上pool，将结果合并输出。其缺点参数量增多。

2017-12-22 21:30:13 644

转载【Scala】泛函数

def findFirstA[A](arr: Array[A],target:A)(equ: (A, A) => Boolean): Int = { def loop(idx: Int): Int = idx match { case l if (l >= arr.length) => -1 //indicate not found

2017-12-20 12:41:24 558

转载【Scala】Scala中的match、case模式匹配

scala中的case语法与java中的switch语法类似，但比switch更强大：例子一，正则匹配：val Pattern="(s.*)".r val v1="spark"; val r=v1 match { case Pattern(v1)=> "begin s*" case "1"=> "1" case "2"=> "2

2017-12-20 11:42:12 1329

原创【数学】凸函数

二阶导数大于0的，就称为凸函数。也就是Hessian矩阵为正定的，即为凸函数。

2017-12-19 22:21:32 932

原创【深度学习】ResNet结构

为什么ResNet比plain net有效？1. 如果Res跳过的层不发生作用的话，那么ResNet的性能跟plain net一样好；2. 如果跳过的层学习到点东西，那么ResNet的性能就比plain net好；

2017-12-19 20:44:59 534

转载【Spark】sortBy[T]和sortByKey[T]排序详解

问题导读：1. 排序算子是如何做排序的？2. 完整的排序流程是？解决方案：1 前言在前面一系列博客中，特别在Shuffle博客系列中，曾描述过在生成ShuffleWrite的文件的时候，对每个partition会先进行排序并spill到文件中，最后合并成ShuffleWrite的文件，也就是每个Partition里的内容已经进行了排序，在最后的action操作的

2017-12-19 15:22:30 1460

转载【Spark-Scala语法】implicit（隐式转换）关键字详解

implicit关键字，告诉程序从上下文获取相关的变量或函数。包括隐式参数、隐式转换、隐式函数。1.隐式参数当我们在定义方法时，可以把最后一个参数列表标记为implicit，表示该组参数是隐式参数。一个方法只会有一个隐式参数列表，置于方法的最后一个参数列表。如果方法有多个隐式参数，只需一个implicit修饰即可。当调用包含隐式参数的方法是，如果当前上下文中有合适的隐式值

2017-12-19 14:41:33 2526

原创【数学】如何求e的值

如何求e的值？通过泰勒展开：将x设为1得（下面的s，就是对应e）：n取的越大，e的值越精确。e是一个无穷小数。

2017-12-18 22:16:12 8876

原创【深度学习】VGG-16网络结构

VGG-16，输入层214*214*3，经过两层相同的卷积，卷积filter为3*3，stride为1，filter数为64，然后经过一层pooling。接着按照相同的方式，让宽和高越来越小，而通道数逐倍增加，直到512。最后用两层相同全连接加一个softmax。VGG-16的性能与VGG-19差不多，所以基本用VGG-16

2017-12-18 21:05:32 17408

转载【统计学】t-检验

t检验是用t分布理论来推论差异发生的概率，从而比较两个平均数的差异是否显著。单总体t检验统计量为：例：问题：难产儿出生数n=35，体重均值 =3.42，S =0.40，一般婴儿出生体重μ0=3.30（大规模调查获得），问相同否？解：1.建立假设、确定检验水准αH0：μ = μ0 （零假设null hypothesis

2017-12-18 16:06:25 714

原创【linux】抓包

tcpdump -i any port 8103 -s 0 -v -w out.cap

2017-12-18 12:44:14 194

原创【linux】查看端口占用

netstat -atn | grep 8080

2017-12-18 11:47:57 169

原创【机器学习】Logistic逻辑回归详解

1 Logistic回归模型公式推导

2017-12-15 17:31:59 221

原创【python】new和init的区别

__new__和__init__的区别__new__是一个静态方法,而__init__是一个实例方法.__new__方法会返回一个创建的实例,而__init__什么都不返回.只有在__new__返回一个cls的实例时后面的__init__才能被调用.当创建一个新实例时调用__new__,初始化一个实例时用__init__.__metaclass__ : 创建类__new__

2017-12-15 14:37:10 259

转载【面试】算法面试复习总结

总结经常会问到的问题，经典算法推导(加分项)，原理，各个损失函数之间区别，使用场景，如何并行化，有哪些关键参数比如LR(并行算法的几种优化方法经常被问到),FFM,SVM,RF,KNN，EM，Adaboost,PageRank，GBDT，Xgboost，HMM，DNN，CNN，RNN，LSTM，推荐算法，聚类算法，图像，自然语言，等等机器学习领域的算法，这些基本都会被问到

2017-12-15 10:01:08 588

原创【深度学习】AlexNet结构解析

Alex-Net中间两层卷积（包括max pooling），filter为11*11和3*3, stride为4和2。然后接两层纯的卷积，接着又是卷积和pooling，最后三层的全连接，通过softmax输出结构。每层中的filter个数越来越多。

2017-12-14 21:26:37 441

转载【面试题】实现一个栈，要求Push（入栈），Pop（出栈），Min（返回最小值的操作）的时间复杂度为O（1）

问题描述：实现一个栈，要求Push（入栈），Pop（出栈），Min（返回最小值的操作）的时间复杂度为O（1）分析问题：要记录从当前栈顶到栈底元素的最小值，很容易想到用一个变量，每push一个元素更新一次变量的值。那么问题来了，当执行pop操作时，上一次的最小值就找不到了。解决问题：这里有两种方法解决这个问题方法一使用一个栈。元素x入栈时，执行一次push（x），再push（

2017-12-14 19:40:44 1432

原创【软件工程】面向切面编程AOP和装饰器

面向切面编程AOP和装饰器面向切面编程（AOP是Aspect Oriented Program的首字母缩写），我们知道，面向对象的特点是继承、多态和封装。而封装就要求将功能分散到不同的对象中去，这在软件设计中往往称为职责分配。实际上也就是说，让不同的类设计不同的方法。这样代码就分散到一个个的类中去了。这样做的好处是降低了代码的复杂程度，使类可重用。但是人们也发现，在分散代码的同时，也增加

2017-12-14 17:13:06 565

转载【python】*args and **kwargs

*args and **kwargs*args用于接收列表（字符串也行）；**kwargs用于接收键值对。1. 函数参数定义时可用；2. 调用函数，传入参数时也可用。当你不确定你的函数里将要传递多少参数时你可以用*args.例如,它可以传递任意数量的参数:Python

2017-12-14 17:00:09 171

转载【Shell】数组

Linux Bash中，数组变量的赋值有两种方法：　　(1) name = (value1 ... valuen) // 此时下标从0开始；　　(2) name[index] = value　　下面以一个简单的脚本来说明，脚本内容如下：　　#!/bin/bash　　#定义数组　　A=(a b c def)　　#把数组按字符串显示输出

2017-12-14 16:52:16 164

转载【算法】算法分析与设计的基本方法

算法分析与设计的基本方法1.递推法递推法是利用问题本身所具有的一种递推关系求问题解的一种方法。它把问题分成若干步，找出相邻几步的关系，从而达到目的，此方法称为递推法。2.递归递归指的是一个过程：函数不断引用自身，直到引用的对象已知3.穷举搜索法穷举搜索法是对可能是解的众多候选解按某种顺序进行逐一枚举和检验，并从众找出那些符合要求的候选解作为问题的解。4.贪婪法(又称

2017-12-14 15:50:51 3505

原创【算法】动态规划与贪婪法区别

动态规划与贪婪算法学习笔记动态规划能求出全局最优解，不是贪心法。已算法导论图示为例两条生产线上，产品经过各个装配工作位直到加工完成所耗费的时间都标记出来了，同一生产线的装配工作位转移不花费时间。试图求出最快流程。动态规划是利用最优子结构自底向上求解。也就是说要求出最后完成的最快流程(Si,6)我们需要先知道Si,5工位的最快流程,而直到Si,5工位的最快流程

2017-12-14 15:48:36 568

原创【Shell】linux shell将字符串分割成数组

s="a,b,c"OLD_IFS="$IFS" #IFS : Internal Field Separator，默认值为空格，tab, 和新行IFS="," #将IFS临时替换为","arr=($s)IFS="$OLD_IFS" #将 IFS 替换回去 fo

2017-12-14 09:51:40 2405

转载【python】python自然语言处理-----计算中文文本相似度

python自然语言处理-----计算中文文本相似度from gensim import corpora,models,similaritiesimport jiebafrom collections import defaultdictimport urllib.request#d1=open("C:/Users/yyq/Desktop/毕业论文/文档1.txt"

2017-12-13 20:47:10 3218

原创【深度学习】经典网络结构-LeNet

LeNet，于1998年提出中间用了两层卷积（包括平均pooling层），最后两层用全连接随着层数的增加，宽度和高度越来越小，但深度越来越深。

2017-12-13 19:29:26 399

转载【算法面试题】从1-200中任意选出101个自然数,其中一个数必是另一个数的整数倍

【爱奇艺】现有1-200之间的正整数，假设从中任意抽取101个数，试证明其中必然有一个数可以被另外一个数整除？证明：任意整数都可以写成(2^a)*b的形式,其中a>=0且a为奇数.把这200个数分类如下：以上共分为100类，即100个抽屉。显然在同一类中的数若不少于两个，那么这类中的任意两个数都有倍数关系。从中任取101个数，根据抽屉原理，一定至少有两个

2017-12-13 16:45:24 4531

原创【python】迭代器和生成器区别

迭代器和生成器区别1 什么是迭代器任何实现了__iter__和__next__()方法的对象都是迭代器，__iter__返回迭代器自身，__next__返回容器中的下一个值，如果迭代器中没有更多元素了，则抛出StopIteration异常。例如：class Fib(object): def __init__(self, max): super(Fi

2017-12-13 15:47:02 305

转载【数据结构】红黑树原理详解

红黑树原理详解R-B Tree，全称是Red-Black Tree，又称为“红黑树”，它一种特殊的二叉查找树。红黑树的每个节点上都有存储位表示节点的颜色，可以是红(Red)或黑(Black)。红黑树的特性:（1）每个节点要么是黑色，要么是红色。（2）根节点是黑色。（3）每个叶子节点（NIL）是黑色。 [注意：这里叶子节点，是指为空(NIL或NULL)的叶子节点！]（

2017-12-13 14:24:07 227

ik分词和ictclas分词两者结合

空空如也