2017年10月_熊野君

12月 11月 10月

原创朴素贝叶斯（三）进阶

1.贝叶斯方法优缺点优点对待预测样本进行预测，过程简单速度快(想想邮件分类的问题，预测就是分词后进行概率乘积，在log域直接做加法更快)。对于多分类问题也同样很有效，复杂度也不会有大程度上升。在分布独立这个假设成立的情况下，贝叶斯分类器效果奇好，会略胜于逻辑回归，同时我们需要的样本量也更少一点。对于类别类的输入特征变量，效果非常好。对于数值型变量特征，我们是默认它符合正态分布的。

2017-10-31 18:05:36 894

原创朴素贝叶斯(二)

简单高效，吊丝逆袭虽然说朴素贝叶斯方法萌蠢萌蠢的，但实践证明在垃圾邮件识别的应用还令人诧异地好。Paul Graham先生自己简单做了一个朴素贝叶斯分类器，“1000封垃圾邮件能够被过滤掉995封，并且没有一个误判”。（Paul Graham《黑客与画家》）那个…效果为啥好呢？

2017-10-31 17:30:59 570 3

原创朴素贝叶斯(一)

引言贝叶斯方法是一个历史悠久，有着坚实的理论基础的方法，同时处理很多问题时直接而又高效，很多高级自然语言处理模型也可以从它演化而来。因此，学习贝叶斯方法，是研究自然语言处理问题的一个非常好的切入口。

2017-10-31 14:04:07 618 2

原创 jieba中文处理

和拉丁语系不同，亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候，大部分情况下，词汇是我们对句子和文章理解的基础，因此需要一个工具去把完整的文本中分解成粒度更细的词。jieba就是这样一个非常好用的中文工具，是以分词起家的，但是功能比分词要强大很多。

2017-10-31 11:35:59 10722

原创 nlp领域的研究入门

1. 国际学术组织、学术会议与学术论文自然语言处理（natural language processing，NLP）在很大程度上与计算语言学（computational linguistics，CL）重合。与其他计算机学科类似，NLP/CL有一个属于自己的最权威的国际专业学会，叫做The Association for Computational Linguistics（ACL

2017-10-31 00:05:54 1734

原创论文写作阶段划分

1.提问：该如何将写作过程分成不同步骤，让我可以依循这些步骤完成文章？ 2.回答：论文写作可分为好几个阶段，但由于我们习惯将所有阶段混在一起，因而常在写作时感到不知所措。根据经验，学术写作包含了至少九个阶段，而我们可以据此将写作分为好几个部份，从而掌握写作进度及要领。

2017-10-29 18:33:58 1908

原创期刊编审流程

多数期刊的投稿论文审查流程包含好几个阶段。

2017-10-29 18:31:34 2662

转载研究生学术论文常犯问题总结

在过去几个月里面，我帮助不少研究生修改过学术论文。其中有一些人的论文的研究内容和结果非常好，但是，在他们论文撰写过程中存在不少问题。现在回国了，我想应该是时候把这些问题总结一下，希望将来研究生们能够避免这些问题，提高科研论文写作效率。问题（1）：摘要与结论几乎重合。这一条是我见过研究生论文中最常出现的事情，很多情况下，他们论文中摘要部分与结论部分重复率超过70%。当然，我自

2017-10-29 18:18:45 1230

原创如何准确搜索？

（一）搜索引擎（重点掌握）搜索引擎是我们信息资料搜集的最重要的渠道之一，用搜索引擎查找信息资料需要使用恰当的关键词和一些搜索技巧。目前国内主要的搜集引擎有如下10个，近期还有较多行业型搜索冒出来，需找专业型行业资料可以使用行业型搜索引擎。由于每个搜索引擎都有一定的局限性，可以把要搜索的关键词在多个搜索引擎试一下，可能会搜出你意想不到的结果。大家对国内的引擎基本都

2017-10-29 18:09:42 11173

原创独立成分分析 ( ICA )

PCA是一个降维的过程，ICA则是帮助你从多个维度分离有用数据的过程。1.概念独立成分分析是从多元(多维)统计数据中寻找潜在因子或成分的一种方法．ICA与其它的方法重要的区别在于，它寻找满足统计独立和非高斯的成分。这里我们简要介绍ICA的基本概念、应用和估计原理。1.1多元数据的线性表示统计数据处理及相关领域中的一个重要和需要长期研究的问题就是，寻

2017-10-29 17:36:59 9073 2

原创科研养猪说

网上曾经流传着这么一个段子，大意说出个题目叫“如何做红烧肉”，分别给不同学历的人作答。本科生一般会从肉开始，讲如何烹饪；硕士生则从如何买肉开始，陈述从选材到制成品的整个流程；博士生则凡事追根溯源，索性从如何养猪开始，洋洋洒洒一大本著作就这么诞生了。刚开始看着段子，也就笑一笑，后来仔细回味，觉得蛮形象的，自己不就在养猪吗？这开题报告好比如何选猪种，你得保证至少市场上没有这种猪，否

2017-10-29 16:26:21 545

原创奇异值分解（SVD）和主成分分析（PCA）

矩阵的奇异值是一个数学意义上的概念，一般是由奇异值分解（Singular Value Decomposition，简称SVD分解）得到。如果要问奇异值表示什么物理意义，那么就必须考虑在不同的实际工程应用中奇异值所对应的含义。奇异值往往对应着矩阵中隐含的重要信息，且重要性和奇异值大小正相关。每个矩阵都可以表示为一系列秩为1的“小矩阵”之和，而奇异值则衡量了这些“小矩阵”对于的权重。奇异值

2017-10-29 14:22:33 14639

原创支持向量机(SVM)——PYTHON3实现

这是初稿转载与别人后期会加以修改和注释，关于cvxopt如何在Python中利用CVXOPT求解二次规划问题 import numpy as npfrom numpy import linalgimport cvxoptimport cvxopt.solversdef linear_kernel(x1, x2): return np.dot(x1, x2)def polynomial_

2017-10-28 17:51:27 1624

原创如何在Python中利用CVXOPT求解二次规划问题

问题描述：在实际生活中，我们经常会遇到一些优化问题，简单的线性规划可以作图求解，但是对于目标函数包含二次项时，则需要另觅它法在金融实践中，马科维茨均方差模型就有实际的二次优化需求作为金融实践中常用的方法，本篇将对CVXOPT中求解二次规划的问题进行举例详细说明，关于该方法在均方差优化中的实践应用，参见后续发帖1

2017-10-28 17:47:25 22751 12

原创 logistic函数

原文logistic回归详解一：为什么要使用logistic函数

2017-10-28 17:41:29 3741

原创损失函数（loss function也叫作cost function）

统计学习方法都是由模型，策略，和算法构成的，即统计学习方法由三要素构成，可以简单表示为：方法=模型+策略+算法损失函数（loss function也叫作cost function）是用来估量你模型的预测值f(x)与真实值Y的不一致程度，它是一个非负实值函数,通常使用L(Y, f(x))来表示，损失函数越小，模型的鲁棒性就越好。损失函数是经验风险函数的核心部分，也是结构

2017-10-28 17:26:54 4070

原创 SVM支持向量机（二）

1. 为什么一定要研究线性分类？首先说一下为什么对数据集一定要说线性可分或线性不可分，难道不可以非线性分开吗？想要非线性分开当然可以，实际上SVM只是把原来线性不可分的数据点映射到一个新的空间，转换为在新空间中线性可分数据来进行分类的。如果返回到原来数据的空间中，其实还是非线性分开的。但是，那为什么不直接在原数据空间中进行非线性分开，而是非要转到新的空间进行线性分开呢？首先，非线性分开比线

2017-10-28 16:37:33 864

原创写论文的几个原则

1 不要假设审稿人会按照你的逻辑，仔细读你的论文（审稿期短的会议论文更是如此）。所以你的论文必须适应审稿人的逻辑和认知心理特点。2 简明扼要，开门见山地说清楚你的贡献。原则上，在摘要里、在导论里要分别以不同的详细程度说明你的贡献。摘要里的说明可以只说2-3句甚至1-2句话。导论里的说明可以在此基础上说的稍多一些。最后，要在正文里详细说明你的贡献。不要以你的工作复杂，数学工具深奥为理由拒绝做简明

2017-10-28 14:41:51 958

原创支持向量机SVM（一）

支持向量机，因其英文名为support vector machine，故一般简称SVM，是90年代中期发展起来的基于统计学习理论的一种机器学习方法，它是一种二类分类模型，其基本模型定义为特征空间上的间隔较大的线性分类器，其学习策略便是间隔较大化，最终可转化为一个凸二次规划问题的求解，从而达到在统计样本量较少的情况下，亦能获得良好统计规律的目的。

2017-10-28 14:19:08 526 1

原创 keras实现attention based sequence to sequence model(首稿)

keras实现attention based sequence to sequence model

2017-10-27 21:45:21 1563

原创 MD5原理

一、MD5概念 MD5，即“Message-Digest Algorithm 5（信息-摘要算法）”，从名字来看就知道它是从MD3、MD4发展而来的一种加密算法，其主要通过采集文件的信息摘要，以此进行计算并加密。通过MD5算法进行加密，文件就可以获得一个唯一的MD5值，这个值是独一无二的，就像我们的指纹一样，因此我们就可以通过文件的MD5值来确定文件是否正确，密码进行加密后也会生成MD5

2017-10-27 20:47:48 4426

原创读博之前要考虑

在做出选择之前做一下人格测试/职业倾向测试等等，至少没有坏处。职业倾向测试会给出比较细致的职业类型建议，会大大减少选择专业的盲目性。至少，对于有明显偏科倾向的孩子来说，不要在文理科之间站错队。读博要有的素质和心理准备

2017-10-25 15:27:45 590

原创矩估计与最大似然估计

一、为什么要估计（estimate）在概率，统计学中，我们所要观测的数据往往是很大的，(比如统计全国身高情况）我们几乎不可能去统计如此之多的值。这时候，就需要用到估计了。我们先抽取样本，然后通过统计样本的情况，去估计总体。下面是数学中常用到的术语：　　·总体（Populantion）。通常它均值（mean）用 μ 表示。方差用表示。　　·样本（Sample）。通常它的均值用表

2017-10-25 14:51:05 2320 2

原创导师不喜欢自己怎么办？

研究生是和导师关系中非常弱势的一方。当出现了被老师不喜欢的情况的时候，其实我们并没有太多余地。因为研究生的学术、科研、毕业、就业这些命根子都攥在导师的手中。1.如果你有志科研，但是因为某些不知道的原因被老师嫌弃，那你只能去改变，去适应导师定下的哪怕是不合理的规则（毕竟导师不是你想换想换就能换）。因为你需要的是课题组的、老师的资源，这些是你进行学术研究的本钱，也是你不得不求着老师的地方。

2017-10-25 14:42:51 5786 2

原创 LSTM模型理论总结

1.传统RNN模型的问题：梯度的消失和爆发说到LSTM，无可避免的首先要提到最简单最原始的RNN。我们经常可以看到有人说，LSTM适合时序序列，变长序列，尤其适合自然语言处理。那么是什么赋予它可以处理变长序列的能力呢? 其实，只要仔细研究上图，相信每个人都能有一个直观的答案。从图片左边来看，R

2017-10-25 11:27:44 21373 1

量子计算机一个显著特点就是基于概率的输出结果，计算机会输出多个结果。一些是正确的，而另一些不是。这看起来并不是一件好事，一台计算机在你求解时返回多个答案这看上去像是个Bug！但是在量子计算机中返回多个答案，给我们提供了关于答案可信度的重要信息。使用上面水果识别的例子，如果我们向计算机提供同一张图片100次，然后计算机返回苹果这个答案100次，我们就可以非常确信内容就是苹果，但是如果计算机返回50次

2017-10-24 19:59:45 1099

原创词嵌入

词嵌入（word embedding）是一种词的类型表示，具有相似意义的词具有相似的表示，是将词汇映射到实数向量的方法总称。词嵌入是自然语言处理的重要突破之一。什么是词嵌入？词嵌入实际上是一类技术，单个词在预定义的向量空间中被表示为实数向量，每个单词都映射到一个向量。举个例子，比如在一个文本中包含“猫”“狗”“爱情”等若干单词，而这若干单词映射到向量空间中，“猫”对

2017-10-23 21:16:41 13973

原创一元线性回归预测法

一元线性回归预测法是分析一个因变量与一个自变量之间的线性关系的预测方法。常用统计指标：平均数、增减量、平均增减量一元线性回归预测基本思想确定直线的方法是最小二乘法最小二乘法的基本思想：最有代表性的直线应该是直线到各点的距离最近。然后用这条直线进行预测。一元线性回归预测模型的建立1、选取一元线性回归模型的变量；2、绘制计算表和拟合散点图；

2017-10-23 20:24:52 3706

原创单因素方差分析（One Way ANOVA）

单因素方差分析是指对单因素试验结果进行分析，检验因素对试验结果有无显著性影响的方法。单因素方差分析是两个样本平均数比较的引伸，它是用来检验多个平均数之间的差异，从而确定因素对试验结果有无显著性影响的一种统计方法。因素：影响研究对象的某一指标、变量。水平：因素变化的各种状态或因素变化所分的等级或组别。单因素试验：考虑的因素只有一个的试验叫单因素试验。例如，将抗生素

2017-10-23 20:09:37 81007 3

原创无偏估计量

定义：无偏估计量是指待估计参数的估计量的期望值等于参数本身。内容：　无偏估计量是样本平均数这一随机变量,其数学期望等于总体的被估计参数,即等于总体平均数，所以称其为无偏估计量。例如，虽然各个可能样本的样本平均数具有随机性,可能等于总体平均数,也可能不等于总体平均数，但是平均起来看,样本平均数的平均数(数学期望)一定等于总体平均数。这种性质在数理统计中叫做无偏性，具有这一性质的估计量

2017-10-22 23:09:01 4061

原创假设检验（Hypothesis Testing）

什么是假设检验　　假设检验是用来判断样本与样本，样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。其基本原理是先对总体的特征作出某种假设，然后通过抽样研究的统计推理，对此假设应该被拒绝还是接受作出推断。　　生物现象的个体差异是客观存在，以致抽样误差不可避免，所以我们不能仅凭个别样本的值来下结论。当遇到两个或几个样本均数（或率）、样本均数（率）与已知总体均数（率）有

2017-10-22 22:40:07 24748

原创方差分析

一、方差分析的基本思想 1. 方差分析的概念方差分析（ANOVA）又称变异数分析或F检验，其目的是推断两组或多组资料的总体均数是否相同，检验两个或多个样本均数的差异是否有统计学意义。我们要学习的主要内容包括单因素方差分析即完全随机设计或成组设计的方差分析和两因素方差分析即配伍组设计的方差分析。 2. 方差分析的基本思想下面我们用一个简单的例子来说明方差分析的基本思想：

2017-10-22 22:21:19 1607

原创标准差和标准误

1 标准差标准差(S 或SD) ,是用来反映变异程度,当两组观察值在单位相同、均数相近的情况下,标准差越大,说明观察值间的变异程度越大。即观察值围绕均数的分布较离散,均数的代表性较差。反之,标准差越小,表明观察值间的变异较小, 观察值围绕均数的分布较密集,均数的代表性较好。在医学研究中,对于标准差的大小,原则上应该控制在均值的12 % 以内,如果标准差过大,将直接影响研究的准确

2017-10-22 22:14:41 5497

原创统计学（五）：几种常见的假设检验

定义假设检验是用来判断样本与样本，样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。其基本原理是先对总体的特征作出某种假设，然后通过抽样研究的统计推理，对此假设应该被拒绝还是接受作出推断。基本原理　　（1）先假设总体某项假设成立，计算其会导致什么结果产生。若导致不合理现象产生，则拒绝原先的假设。若并不导致不合理的现象产生，则不能拒绝原先假设，从而接受原先假设。

2017-10-22 22:12:56 43981 2

原创统计学（四）：几种常见的参数估计方法

参数估计有点估计(point estimation)和区间估计(interval estimation)两种。点估计是依据样本估计总体分布中所含的未知参数或未知参数的函数。通常它们是总体的某个特征值，如数学期望、方差和相关系数等。点估计问题就是要构造一个只依赖于样本的量，作为未知参数或未知参数的函数的估计值。例如，设一批产品的废品率为θ。为估计θ，从这批产品中随机地抽出n个作检查，

2017-10-22 22:10:28 37061 3

原创统计学（三）：几种常见的概率分布

下面介绍几种常见的概率分布。离散概率分布关于期望和方差的计算，说明如下：首先假设有一个伯努利试验。试验有两个可能的结果：1和0，前者发生的概率为p，后者的概率为1 − p。该试验的期望值等于μ = 1 · p + 0 · (1−p) = p。试验的方差也可以类似地计算：σ2 = (1−p)2·p + (0−p)2·(1−p) = p(1 − p)。一般的二项分布是n次独立的

2017-10-22 21:53:43 16090

原创统计学（二）：统计学体系结构和常用统计量

统计学是研究如何测定、收集、整理、归纳和分析反映客观现象总体数量的数据，以便给出正确认识的方法论科学，被广泛的应用在各门学科之上，从自然科学和社会科学到人文科学，甚至被用来工商业及政府的情报决策之上。下图是我根据所查资料结合自己的理解做的，并非严格意义上的统计学分支体系（最下层涉及一些统计学方法），主要是使初学者了解各统计方法所属的统计学分支，便于整体掌握。橙色部分是学习的重点，将在后面的博文

2017-10-22 21:43:52 1506

原创统计学（一）

1.小概率标准在概率论中我们把概率很接近于0（即在大量重复试验中出现的频率非常低）的事件称为小概率事件...一般多采用0．01、0.05两个值即事件发生的概率在0．01以下或0.05以下的事件称为小概率事件这两个值称为小概率标准2、准确度和误差准确度：指分析结果接近真值的程度，用平均值的误差表示。误差：表示测定值与真值的差异。平均值的误差就是平均值与真值的误差，可用

2017-10-22 21:30:04 1186

原创参数估计与假设检验

首先是抽样，抽样解决了用少量估计大量。用样本估计总体。样本可以估计参数，总体的参数。参数估计就是在已知总体分布的情况下，估计一些总体的参数，比如说总体均值E(X)，总体方差D(X)。怎么估计？点估计和区间估计。点估计估计的是总体参数，估计的是一个数值。参数估计估计的是一个范围，参数估计总体参数是定死的，置信区间在总体参数上浮动。点估计一般有矩估计和极大似然估计。矩估计？当n->无穷大时，我们认为样本

2017-10-22 21:26:29 2874 2

原创如何更好的科研

思考下：一些看上去很琐碎的事情是否在默默消磨掉你的雄心壮志？倘若的确如此，则是时候做出些有效的改变了。采用一个不适合你的时间计划作为一名研究生，你可能会有机会决定一个与你的科研产出和个人生活相匹配的研究安排。其灵活性的程度将取决于多个因素，包括课业压力，助教与否，实验类型，及潜在的老板的帮助和期望。但在这大框架之下，请考虑所有的选项。听从你的大脑和身体的指挥。不断尝试以发现什么时候最适合做脑力劳

2017-10-22 18:45:39 481

需求自查表——小芦同学编写

2021-08-23

python基础

类(Class): 用来描述具有相同的属性和方法的对象的集合。它定义了该集合中每个对象所共有的属性和方法。对象是类的实例。方法：类中定义的函数。类变量：类变量在整个实例化的对象中是公用的。类变量定义在类中且在函数体之外。类变量通常不作为实例变量使用。数据成员：类变量或者实例变量用于处理类及其实例对象的相关的数据。方法重写：如果从父类继承的方法不能满足子类的需求，可以对其进行改写，这个过程叫方法的覆盖（override），也称为方法的重写。

2018-07-30

机器学习与流形（1）

（最近，哈佛大学丘成桐先生领导的团队，大连理工大学罗钟铉教授、雷娜教授领导的团队应用几何方法研究深度学习。老顾受邀在一些大学和科研机构做了题为“深度学习的几何观点”的报告，汇报了这方面的进展情况。这里是报告的简要记录，具体内容见【1】。）上一次博文（深度学习的几何理解（1） - 流形分布定律）引发很大反响，许多新朋老友和老顾联系，深入探讨学术细节，并给出宝贵意见和建议，在此一并深表谢意。特别是中国科学技术大学的陈发来教授提出了和传统流形学习相比较的建议；和熊楚渝先生提出通用学习机的X-形式理论等等。

2018-06-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

需求自查表——小芦同学编写

python基础

机器学习与流形（1）

《统计学习方法》笔记（五）逻辑斯蒂回归与最大熵模型

K近邻法相关

统计学习方法（二）感知机

统计学习笔记（一）

云计算复习

空空如也