2017年04月_AI让世界更懂你

原创剑指offer——调整数组顺序使奇数位于偶数前面

1. 问题描述输入一个整数数组，实现一个函数来调整该数组中数字的顺序，使得所有的奇数位于数组的前半部分，所有的偶数位于位于数组的后半部分，并保证奇数和奇数，偶数和偶数之间的相对位置不变。2. 解决办法这个解决方法应该很容易想到这样一个办法，那就是把奇数先全部找出来，然后把偶数全部找出来，然后把两个数组拼接起来就可以了。这既是一个非常容易想到的办法，而且也是正常人做这件事情的过程。实际上，这样

2017-04-27 14:55:00 554

1. 语言的发展语言作为贯穿整个人类文明发展的重要因素，一直以来都是人类研究的主要对象。在最近几个世纪，研究语言的方向主要集中在形式主义与功能主义上，对语言所代表的的意义还缺乏一定的认识。事实上，语言在很早以前可能就是形式与功能的结合体。例如1代表的就是1个的意思，十代表十个的意思。也就是说，形式与功能是一致的，这时候意义也就伴随着形式与功能的一致而唯一。但是，语言是不断发展的，因此出现了同形式不同

2017-04-23 10:28:05 1266

原创统计学习方法——逻辑斯蒂回归模型

1. 写在前面本文主要针对一个简单的机器学习算法逻辑斯蒂回归模型进行相关的讲解。主要内容包括：逻辑斯蒂回归模型定义及来源、二项逻辑斯蒂回归模型形式与推导、二项逻辑斯蒂回归模型的参数估计与多项逻辑斯蒂回归模型推广。2. 逻辑斯蒂回归模型定义及来源逻辑斯蒂回归模型主要是来源于逻辑斯蒂分布与逻辑斯蒂函数。当然，如果换一个名字，你对它应当相当熟悉，那就是sigmoid函数。它的形式如下： ...

2017-04-22 19:54:32 2086 1

原创 Sklearn学习之路（2）——围绕评估器转换器展开讨论

1. 写在前面在上一讲中，我们对于Sklearn框架有了一个较为直观的认识，但是对于其中的细节部分，可能还是不知甚解。这次，我们将会详细的介绍其中的一些知识，包括：Sklearn版本注意事项、最基本的评估器与转换器、fit、transform与fit_transform的区别、pipeline使用，tfidf与CountVectorizer方法等。2. Sklearn版本注意事项在网上很多Sklea

2017-04-22 10:46:08 2629

原创神经网络之感知器与词向量

1. 写在前面本文并不是写词向量如何使用神经网络感知器训练出来的，而是对于词向量，如何使用神经网络模型。本文是入门级，高手可以跳过。2. 词向量自从word2vec火了以后，词向量就变得越来越重要，google的引文统计中，Word2vec的引文数量上万了（一篇3000多，一篇6000多）。那么word2vec到底有什么用？2.1 词的向量表示这个最重要的一点来源于计算语言学，因为我们自然语言处理对

2017-04-18 20:16:52 1639 1

原创 Sklearn学习之路（1）——从20newsgroups开始讲起

1. Sklearn 简介Sklearn是一个机器学习的python库，里面包含了几乎所有常见的机器学习与数据挖掘的各种算法。具体的，它常见的包括数据预处理（preprocessing）（正则化，归一化等），特征提取（feature_extraction）（TFIDF等），降维（decomposition）（PCA等），以及常见的机器学习算法（分类、聚类、回归），更特别的，它也包括了评估（混淆矩阵与

2017-04-17 15:19:37 15333 7

原创统计学习方法——决策树

0. 写在前面决策树模型我们之前已经简要介绍过了，简要介绍决策树以及ID3决策树若干问题解答。这次我们将会详细的介绍决策树的整个知识内容，其中包括决策树的3个学习过程：特征选择、决策树的生成和决策树的修剪。以及常见的集中决策树模型。1. ID3与C4.5决策树决策树作为一种基本的分类与回归方法，经常被我们所用。尤其是因为它具有高可读性、分类速度快等优点，深受一些人的喜爱。其实它也是属于符号学派的一种

2017-04-16 16:54:58 1382

原创剑指offer——数值的整数次方

1.问题描述给定一个double类型的浮点数base和int类型的整数exponent。求base的exponent次方。2.解决方法2.1 level1这道题，首先的第一反应就是使用最基础的，把指数运算换成连乘运算，然后通过编码实现，这个不难。public static double Power( double base, int exponent) { //如果为负数，则

2017-04-15 19:11:58 591

原创 ML的45问（3）——神经网络与感知器法则、反向传播算法

0. 写在前面今天我么你主要介绍关于人工神经网络的相关问题。1. 三种神经网络单元及其形式人工神经网络有3种基本的神经元，分别是感知器模型、线性单元和Sigmoid单元。1.1 感知器模型感知器模型是神经网络模型提出来的最早的神经单元之一。它比较简单，如果使用公式来表示的话： O（X→）=sgn(W−→⋅X→)O（\overrightarrow{X}）=sgn(\overrightarrow{W}

2017-04-15 15:47:14 856

原创 Keras入门（1）——Keras的安装与运行

0. 写在前面从几天开始，我就新跳入了一个坑里，这个坑就是大家基本上竞相跳的深度学习-Keras。但是入手并不顺利啊，虽然它已经是深度学习中，封装的十分棒的框架了，但是就和武器一样，越是厉害的武器，限制条件越多。下面看看我的坎坷之路。1. Keras安装1.1安装前准备咱属于个人开发，要啥没啥，环境只能是笔记本+windows+anaconda+python3.5+pycharm。那装Keras

2017-04-14 15:13:50 11429 7

原创众包数据标注中的隐类别分析

0. 写在前面这时一篇关于田天、朱军的一篇论文的读后感和自己的一点思考。1. 众包众包（crowdsourcing）这个词，第一次听到还是众包数据库，是从老班长那里听到的。细想起来，我对外包(outsourcing)这个词更加熟悉。其实众包就是大家一起外包，把部分工作交给一批人去做，这就是众包。准确来说，“众包”一词最早由Howe和Mark Robingson在2006年美国《连线》发表的文章中提出

2017-04-13 21:22:56 6364

原创统计学习方法——朴素贝叶斯

0.写在前面朴素贝叶斯实际上是非常简单的一种机器学习方法，我们在之前的很多地方都讲过了，所以这里我们不再阐述具体的原理，可以移步：朴素贝叶斯。但是，对于讨论班里，争论最多的就是课后的2个习题，因此，我们重点放在这两个习题上。他们分别是： 4.1 用极大似然估计法推出朴素贝叶斯法中的概率估计公式（4.8）及公式（4.9）。 4.2 用贝叶斯估计法推出朴素贝叶斯法中的概率估计公式（4.10

2017-04-13 20:13:02 2219

原创对于一个小白来说，遇到的前端问题（3）

1. 写在前面一个小白前端，最大的问题，就是健壮性啊，上面需求一说要改，完全不知掉怎么改啊，这界面是越改越乱啊，尽管我用了bootstrap,可我完全没有理解栅格系统的精髓啊！然后又出了这么一系列的问题，还需要不断的解决和认识。2. boostrap的栅格系统boostrap提供的栅格系统还是比较好用的，但是我平时都不太注意，总是喜欢用col-md-*像row和container都没怎么用，然后，然

2017-04-12 17:06:20 659

原创计算语言学之语言模型

0. 写在前面这一章我们介绍语言模型。不过要说的是，这里的语言模型基本上是基于字词的，但是其思想也是要掌握的，如果以后到句子、段落、篇章的时候，这些思想都是十分有用的。1. 语言模型语言模型（LM）在自然语言处理中占有重要地位，而且像n元语法模型是一个简单但是比较有效的模型。只能说比较有效，但是想要提高到非常高的地步，还需要继续改进才行。1.1 n元语法我们正常人的思维，肯定是这样想的，一句话的每个

2017-04-12 15:55:09 2693

原创对于一个小白来说，遇到的前端问题（2）

1. 写在前面自从入了前端的坑，坑是越来越大，快把自己埋了。现在又开始搞样式了。2. CSS样式的写法CSS样式的写法有这么3种，下面我们一一介绍。1. 外部样式表链入外部样式表是这样的，一般放在<head></head>里：<link href="mystyle.css" rel="stylesheet" type="text/css" media="all">…… </head>其中mystyl

2017-04-11 17:14:55 2587 2

原创计算语言学之语料库

0. 写在前面我们自然语言处理和语言学方面的不同就在于，我们来源于大量的语料库统计资料。之前所看到的的语言学方面的篇章分析，大多都是基于几十篇的文章得出的结果，并不是太有说服力，仅仅是高频统计。所以，我们这一张来介绍一下语料库。1. 语料库的来源1.1 语料库的定义语料库就是存放语言材料的数据库。做机器学习，最重要的是语料，有了大量的训练样本，才能够学习到更加真实的模型。1.2 语料库语言学的发展语

2017-04-10 18:24:35 2432

原创剑指offer——二进制中1的个数

1.问题描述输入一个整数，输出该数二进制表示中1的个数。其中负数用补码表示。2.解决方法2.1 level1看到这个题目第一反应是什么呢？在回想什么是补码，如何把一个整数转换成2进制。这是一个非常通用的想法。我们最先知道的就是使用对二整除、求余两种运算，能够保证整个功能实现，那么省下的就是要处理补码的问题，补码是针对负数的，负数的补码符号位为1，并且使原码的取反加一。但它真正的含义是去除符号

2017-04-10 12:28:32 1048 2

原创 ML的45问（2）——ID3算法详解

1. 写在前面这次我们主要介绍关于决策树的相关问题，尤其是针对ID3算法的一些问题进行相应的解答。2. ID3算法过程ID3的能处理的数据都是离散值的。接下来我们看算法：创建Root结点如果Example都为正，那么返回label=正的单节点数Root 如果Example都为副，那么返回label=副的单节点数Root 如果Attribu

2017-04-09 11:31:55 2748

原创篇章结构类型、层次及分析模式研究

这篇是何继红、张德禄一篇发表在《外语与外语教学》上的一篇论文，本文是其个人读后感和一些想法。1. 摘要这篇文章中，主要针对的是语篇结构和类型、层级性和分析模式的研究，着重对于语篇的结构类型进行了相关的探讨。我也主要是注重其语篇的结构方面进行相关的思考。2. 语篇、话语与篇章语篇（text）和话语（discourse）、篇章（discourse）之间有着一定的联系。在系统功能语言学中，语篇和话语没有什

2017-04-09 10:49:08 10738

原创宏观结构分析之语篇模式视角

这是翟学凤在《MASTERPIECES REVIEW》上的一篇论文。本文是其读后感及其个人思考。1. 摘要这篇文章主要是对于篇章的宏观结构进行了相关分析，尤其是英语的几种语篇模式进行了一定的概括和总结。并给出了相应的例子，本来是对于优化学生的阅读模式而写的文章。这里仅做参考。2. 篇章宏观结构理论提到篇章宏观结构理论，就不得不提Van Dijk，他提出的宏观结构理论。宏观结构是语篇深层次语义结构，它

2017-04-08 22:29:47 2446

原创英汉新闻评论语篇宏观结构和发展模式对比研究

这是选自孙海燕在海外英语上面的一篇论文的读后感和整体摘要。我主要侧重于篇章方面的描述，这篇文章比较短。1. 摘要这是一篇研究英汉之间新闻评论的语篇宏观结构的研究。本人之处，中英之间的宏观结构上，是有一定区别的。尤其是在语篇宏观结构、信息展开模式上，都有显著性差异。2. 语料来源及分析这篇文章的语料来源主要是来自于2013年7月-2014年6月共32篇文章，其中英语评论文章主要来自《纽约时报》、《华盛

2017-04-08 22:12:05 744

原创对于一个小白来说，遇到的前端问题（1）

1.写在前面首先要声明一下我的立场，前端是个好东西，我希望我有。但是我之前对于前端确实不太熟悉，最近需要做一个项目，只好赶鸭子上架了。对于前端还有很多不懂的地方，工期赶得紧，只能先能用再说，没考虑是不是正路子。下面是我最近在工程中所遇到的问题，分享给大家，也是提醒我自己。2. js的若干问题对于一位长期从事后端的人来说，JS的运作方式还是给我带来了很多颠覆性认识。但是其实主要有这么几个方面问题：

2017-04-08 12:03:59 893

原创剑指offer——矩形覆盖

1. 问题描述我们可以用2*1的小矩形横着或者竖着去覆盖更大的矩形。请问用n个2*1的小矩形无重叠地覆盖一个2*n的大矩形，总共有多少种方法？2. 求解方法看似困难的题目，实际上，就是斐波那契数列的变种而已，通过画图可以清楚的看出:f(0)=0,f(1)=1,f(2)=2,f(3)=3...f(0)=0,f(1)=1,f(2)=2,f(3)=3...那么为什么不是归纳为f(n)=n呢？大家可

2017-04-06 22:07:36 566

原创汉英语篇主题与段落结构模式的比较研究

这是选自李锦、廖开洪在暨南学报上面的一篇论文的读后感和整体摘要。我着重侧重于汉语方面的探讨。1.摘要在这篇文章中，作者主要的结论就是，英汉两种语言都有着相似的结构模式，不存在英语侧重形，而汉语侧重神。这个结论主要是根据作者从两种语料中抽取的说明文50篇，并且选出依据主题扩展的中英文段落各300段，最终结果是在段落层面，无论英语还是汉语，主题句与扩展句的分布结构呈现出相同的特点。2. 主题是什么？2.

2017-04-03 10:02:55 830

刘炫320的博客