2017年12月_黄小猿

原创让你看懂聚类分析

目录1.聚类分析概述 2.各种距离的定义 2.1 样本相似性度量 2.2 类与类间的相似性度量 2.3 变量间的相似度度量 3.划分聚类 4.层次聚类 1.聚类分析概述聚类分析是一种定量方法，从数据分析的角度看，它是对多个样本进行定量分析的多元统计分析方法，可以分为两种：对样本进行分类称为Q型聚类分析对指标进行分类称为R型聚类分析从数据挖掘的角度看，又可以大致分为四种：划分

2017-12-16 20:22:16 157035 5

原创 java基础（二）

目录常量进制数原码，反码，补码数据类型运算符1.常量class Demo1_Constant { public static void main(String[] args) { System.out.println("abc"); //字符串常量-用双引号括起来的内容 System.out.println(123); //整数常量-所有整数

2017-12-30 18:50:26 339

原创 ML/DL题（一）-漫谈距离美

———–题目不是用来刷的，是用来思考的！—————目录题目 1.1 欧式距离 1.2 曼哈顿距离 ——————————-思考——高手的分割线———————————–距离的美学样本相似性度量 2.1 闵氏距离 2.1.1 曼哈顿距离/绝对值距离 2.1.2 欧几里得距离 2.1.3 切比雪夫距离 2.1.4 闵氏距离的共同点 2.2 马氏距离 2.3 从概率角度

2017-12-30 11:23:00 1349

原创 coursera课程learning how to learn的主要内容-学会学习之组块原理（二）

1.引言这篇文章是关于组块原理的，它能把我们接触到的信息进行打包，让我更好的掌握。我们将学习到如何让自己形成组块，怎样运用它，来帮助我们理解各种学习材料，以及在考试中取得好的成绩。还有关于学习某一技能或知识点的假象，误区。这是因为我们使用了错误的学习方法，同时骗过了自己，让自己以为自己在学习，其实只不过是在浪费时间。我会告诉你什么样的学习方法是无效，同时也会告诉你什么样的学习方法能帮助你更高效地学习

2017-12-27 09:00:22 2196

原创 R语言基础（三）-数据处理常用操作

目录判断循环定义函数常用操作 4.1 列联表 4.2 合并数据集 4.3 取数据的子集1.判断括号不要搞混了x = 2if(x<2) { print("Hello")} else if(x<5) { print("Hi")} else { print("Bye")}2.循环#计算10以内所有偶数的和sum = 0for(i in 1:10) { if(i

2017-12-26 21:20:14 9207

原创 R语言基础（二）-四种数据类型

目录向量 1.1 定义向量 1.2 定义特定的向量seq的用法 1.3 rep的用法重复复制元素 1.4 命名元素 1.5 行列拼接 1.6 向量运算矩阵 2.1 如何创建矩阵 2.2 查看矩阵维数并更改列名 2.3 获取行列名 2.4 矩阵的取值 2.5 矩阵的运算-元素间运算 2.6 矩阵运算-矩阵间运算向量框 3.1 创建数据框 3.2 了解矩阵框 3.3

2017-12-26 19:38:47 14530

原创 R语言基础（一）-常用数学函数与定义

数学系的孩子，学点R语言对以后还是有很大的帮助的。 1.设置文件存储路径 2.整除取余数 3.乘方 4.平方根，指数，绝对值 5.对数 6.四舍五入 7.近似函数 8.三角函数 9.阶乘 13.取最大最小时不要缺失值1.设置文件存储路径> getwd() #获取文件的自动存储位置[1] "/Users/huanghuaixian"> setwd("/Users/huang

2017-12-24 21:24:19 14942 1

原创拟牛顿法公式推导以及python代码实现（二）-BFGS家族

目录BFGS 1.1BFGS公式推导 1.2 python实现L-BFGS 1.1 L-BFGS的完整推导1.BFGS 1.1BFGS公式推导BFGS是可以认为是由DFP算法推导出来的，上篇文章有详细的推导：（拟牛顿法公式推导以及python代码实现（一））目前BFGS被证明是最有效的拟牛顿优化方法。它的思想是根据我们已知的两个拟牛顿条件：关于Hess近似的：Bk+1sk=yk(1

2017-12-24 09:03:56 11676 3

原创拟牛顿法公式推导以及python代码实现（一）

目录拟牛顿法 1.1拟牛顿法的导出与优点 1.2 算法步骤与特点对称秩一校正公式DFP算法 3.1 DFP公式推导 3.2 要求解的问题 3.3 python实现1.拟牛顿法 1.1拟牛顿法的导出与优点在上一文中（牛顿法公式推导与python实现），谈到说牛顿法需要计算一个Hessian矩阵的逆，才能够迭代，但在实际工程中，计算如此大型的矩阵需要很大的计...

2017-12-22 19:11:16 13308 6

原创详细解读Spatial Transformer Networks（STN）-一篇文章让你完全理解STN了

目录STN的作用 1.1 灵感来源 1.2 什么是STN？STN的基本架构Localisation net是如何实现参数的选取的？ 3.1 实现平移 3.2 实现缩放 3.3 实现旋转 3.4 实现剪切 3.5 小结Grid generator实现像素点坐标的对应关系 4.1 为什么会有坐标的问题？ 4.2 仿射变换关系Sampler实现坐标求解的可微性 5.1 小数

2017-12-22 10:36:26 110597 36

原创 java 基础（一）

常见错误java语言书写格式java语法注释关键字标识符标识符明明规则1.常见错误第一个HelloWorld.public class HelloWorld { public static void main(String[] args) { System.out.println("HelloWorld"); }}有可能的问题： A.找不到文

2017-12-21 10:56:34 317

原创 jupyter notebook 常用操作

1.显示行号 Toggle Line Numbers就是显示行号的。 2.转化为markdown编辑状态勾这里的Markdown就可以了。默认状态是code. 3.将ipynb文件转为html文件当然还可以转为其他类型的文件，比如.py，或者PDF，发现功能真的很强大啊。 4.预览.pynb文件点击Print Preview就OK了

2017-12-21 09:26:04 1327

原创 Mac下的终端命令大全

1.目录操作补充：移动目录如果不行用：mv dir1/dir22.文件操作3.选择操作4.安全操作5.编程操作6.进程操作7.时间操作8.网络与通信操作9.Korn Shell 命令10.其他命令

2017-12-21 08:03:45 1576

原创 p7zip 在Mac下的应用-以在sublime text3配置Java开发环境

以在sublime text3配置Java开发环境为例先安装好Java,sublime text安装方法$ brew install p7zip到sublime text 的包目录下，我用的是3cd /Applications/Sublime\ Text.app/Contents/MacOS/Packages创建一个临时文件夹来编译mkdir javamv Java.sublime-packa

2017-12-20 23:41:27 921

原创 python numpy学习

目录np.meshgridnp.where 1.np.meshgrid可以生成一对协调的点，x = np.arange(-5, 5, 1)y = np.arange(-5, 5, 1)xx, yy = np.meshgrid(x, y, sparse=True)xx#输出：array([[-5, -4, -3, -2, -1, 0, 1, 2, 3,

2017-12-19 08:35:40 470

原创注意力模型

RNN原理理解注意力模型初见注意力模型的思考 1.RNN原理理解前两篇文章，我们详细讲解了RNN的原理：循环神经网络（RNN）原理通俗解释，以及它的高级版本LSTM：循环神经网络（RNN）之LSTM 这是它的原理图，你会发现，t−1,t,t+1t-1,t,t+1,其实是一个连接着的序列，比如时间，或者语言。也就是说，RNN对于序列到序列的学习比较擅长。所以本篇文章会详细介绍RNN在NL

2017-12-17 22:16:08 2119

原创一维线搜索确定最优步长

目录一维搜索问题进退法确定搜索区间分割技术（0.618）减小搜索区间wolfe条件确定步长 4.1 梯度与函数下降的关系？ 4.2 wolfe条件1.一维搜索问题一维线搜索，就是指单变量函数的最优化，它是专门针对单峰函数设计的：如上一篇文章所述，多变量函数中，迭代格式为：xk+1=xk+αkdkx_{k+1} = x_k + \alpha_k d_k其中的关键就在于找到合适的步长αk,

2017-12-17 17:09:26 20396

原创最优化理论与凸优化到底是干嘛的？

凸优化的定义 1.1 凸优化 1.2 全局最优化与局部最优化Least-squares and linear programming(最小二乘与线性规划) 2.1 最小二乘 2.2 线性规划最优化方法的一般结构 1.优化的定义1.1 凸优化最优化问题目前在机器学习，数据挖掘等领域应用非常广泛，因为机器学习简单来说，主要做的就是优化问题，先初始化一下权重参数，然后利用优化方法来优化这个

2017-12-15 20:47:53 63048 1

原创 1.传统数据分析与机器学习的混合应用

目录第一篇：传统数据分析 1.1 项目目的 1.2 数据处理 1.3 分析过程第二篇：机器学习在医疗上应用 2.1．算法概述 2.2. 基于logistic回归算法和Sigmoid函数的分类 2.3基于梯度上升法的最佳回归函数确定 2.4.目标函数与最大似然函数估计 2.5编程实现第三篇总结 3.1传统数据分析的优缺点 3.2 基于大数据的分析第一篇：传统数据分析项

2017-12-15 18:10:05 1878

原创 2.python连接mongodb,利用微博数据制作云图

先把使用到的库导进去import matplotlib.pyplot as pltimport jiebafrom wordcloud import *import pymongoimport re连接mongob数据库并完成测试，输出collection中有多少条记录，我用的这个有178万条数据。#连接数据库client = pymongo.MongoClient('localhost'

2017-12-15 17:40:50 774

原创如果看了这篇文章，还不懂傅立叶变换，那就过来掐死我

本文属转载，原文地址请戳：傅里叶分析之掐死教程我保证这篇文章和你以前看过的所有文章都不同，这是12年还在果壳的时候写的，但是当时没有来得及写完就出国了……于是拖了两年，嗯，我是拖延症患者……这篇文章的核心思想就是：要让读者在不看任何数学公式的情况下理解傅里叶分析。傅里叶分析不仅仅是一个数学工具，更是一种可以彻底颠覆一个人以前世界观的思维模式。但不幸的是，傅里叶分析的公式看起来太复杂了，所以很多大一新

2017-12-13 09:06:23 1840

原创 3.weighted quick union

上一篇文章介绍的2.quick find and quick union是基础版的，但是它无法处理大型数据集的动态连接，所以我们还要对其进行改进。weighted quick-union 1.1 基本思想 1.2 Java代码 1.3 python代码实现 1.4 复杂度分析weighted quick-union-改进2-压缩路径（path compression） 2.1 基本原理

2017-12-12 15:09:23 2630

原创 2.quick find and quick union

1.quick find对于下图的数组id[ ],如果他们有相同的id，说明他们是相连的。比如0-5-6是以0开头的，1-2-7是以1开头的，8-3-4-9是以8 开头的。我们查找的时候就可以查找他们的开头，看一下他们是不是有相同的开头，进而判断他们是否相连。quick find简单的说就是根据相连的部分，把相连的元素的id全部换成开头元素的ID，如下8-3-4的ID都换成了开头的8. 如此

2017-12-11 16:36:26 1362

原创 mac 下的最好的播放器 mpv

SPACE 暂停/播放切换 UP 快进 60 秒 DOWN 回退 60 秒 LEFT 回退 5 秒 RIGHT 快进 5 秒常用 j 循环选择字幕 J 反向循环选择字幕 [#] 循环切换音轨 f 切换全屏状态 T 切换视频窗口是否总在最前 s 视频截图，包含字幕 S 视频截图，不带字幕 Alt+s 自动逐帧视频截图，再按一次停止截图 . 进到下一帧 , 退到前一帧 9

2017-12-11 09:30:48 4682

原创机器学习常用参考文章

机器学习算法使用图谱机器学习算法一览，应用建议与解决思路Approaching (Almost) Any Machine Learning Problem Base classes and utility functionsplot learning curve

2017-12-11 08:03:22 341

原创编程学习理论（一）

1.什么是元学习很多人在学习编程的时候，都会在网上找各种各样的入门书籍，从入门到精通的教程，但大部分人都是直接从入门到放弃，原因何在呢？我想大部分都是没有学习如何学习。最初听到这个例子是从李笑来那里听到的，然后慢慢发现他说的确实有道理，但是有道理没有用呀，关键还是靠实践。今年六月份，大三就基本已经过去了，在考虑是考研还是找工作的过程中，最终还是选择了找工作。原因在此不细说，总之，相比于老师

2017-12-10 10:44:35 1499 1

原创推荐系统概述

评估指标 1.1 准确度 1.1.1 打分系统 1.1.2 Top N推荐覆盖率多样性 3.1 基于内容 3.2 协同过滤基于用户的协同过滤（user-based CF）基于物品的协同过滤（item-based CF）对比1.评估指标推荐算法的内核在于更好的分发系统中的内容，尽量消除长尾效应，让每一份内容都得以展示，同时还要满足客户的需求。因此评估一个推荐算法的好坏主要有三

2017-12-09 12:28:27 491

原创爬虫-python基础篇

1.2 python 1.2.1 第三方库 Requests BeautifulSoup 1.2.2 重要知识点 1.2 python 1.2.1 第三方库Requestspython开源了很多第三方库，在写爬虫抓取数据的时候，一般会用第三方库：requests，使用import，导入包之后就可以调用了。Requests:可以用来发送网络请求，如图：此外，还有很多高级

2017-12-09 12:13:05 415

原创爬虫基础-网站篇

网站基础 1.1.1 html 1.1.2 http 协议 1.1.3 xpath 1.1.4 正则匹配 1.1 网站基础 1.1.1 html在大数据时代，数据就是企业的命脉，而数据很多来源于各种各类的网站，因此，今天我们就先来了解一下网站的构成。网站页面基本是由html和css组成，所以我们先来看一下html的基础知识。Html是用来描述网页的语言，但不是编程语言，而是标记语言

2017-12-09 11:58:49 1014

原创手推SVM（三）-软间隔和损失函数的推导

1.软间隔的提出上一篇文章（手推SVM（二）-核方法）我们用核方法来解决线性不可分问题，但如果即使映射到高维空间中，仍然有部分点不能完美的区分开呢？如图，无论核函数怎么选取，都不能完美区分开数据，即使能完美的区分开数据，也会很容易导致过拟合的发生，这时候我们该怎么办呢？既然人在做某事的时候，能允许犯一点小错，那模型为什么就不能允许犯一点小错呢？这就是软间隔的想法，既然确实无法区分开，那我

2017-12-08 21:45:49 5654 1

原创 1.Dynamic Connectivity（动态连接）

怎么发现一个有用的算法？我们平时发现一个算法一般会遵循一下这几个步骤：遇到问题，试图发现这个问题的主要元素。然后找到解决这个问题的算法第一次写的算法（也许很快，也许很慢）但一般第一次写的算法都比较糟糕，这时候就找方法解决为什么会那么糟糕了找到使得算法变好的关键点不断迭代 Dynamic Connectivity寻找有没有连接两个点的路径，如下：你发现又连接8-9的路径，但是没有

2017-12-08 15:37:29 1503

原创手推SVM（二）-核方法

注：核方法不仅仅在SVM中应用，它是一种思想，就像正则化一样，能应用于其他的模型。核方法思想相似性度量核方法 3.1 kernel trick(核技巧) 3.2 Kernel Properties(核性质) 3.3核函数解决了非线性可分的问题常见的核函数 4.1 线性核 4.2 多项式核 4.3 高斯核（RBF） 4.4 sigmoid核Kernel Logistic Reg

2017-12-08 13:21:35 3198

原创 coursera课程learning how to learn的主要内容-学会学习（一）

focused mode 和diffused mode（集中模式与发散模式）关于你的大脑对付拖延症 3.1让自己喜欢上你要做的事。 3.2番茄工作法持续练习长时记忆和工作（短时）记忆睡眠的重要性对Dr. Terrence Sejnowski的采访总结一下 1.focused mode 和diffused mode（集中模式与发散模式）对于僵尸来说，他的行动取决于他的大脑，而它大

2017-12-08 10:45:13 6768

原创主题模型（LDA）(二)-公式推导

上一篇文章讲解了LDA的通俗理解，基本没有用任何公式，还给了用gensim做邮件分类的案例，详情请戳：主题模型（LDA）(一)这篇文章看一下公式式怎么推导出来的。正经的LDA，主要有以下几个方面：一个函数：gamma函数四个分布：二项分布，多项分布，beta分布，狄利克雷分布一个概念一个理念：共轭先验与贝叶斯框架pLSA,LDA一个采样：Gibbs采样我们来看一下它是怎么推导出来的。

2017-12-06 21:30:59 6633

原创主题模型（LDA）(一)--通俗理解与简单应用

这篇文章主要给一些不太喜欢数学的朋友们的，其中基本没有用什么数学公式。目录直观理解主题模型LDA的通俗定义LDA分类原理LDA的精髓主题模型的简单应用-希拉里邮件门 1.直观理解主题模型听名字应该就知道他讲的是什么？假如有一篇文章text，通过里面的词，来确定他是什么类型的文章，如果文章中出现很多体育类的词，比如，篮球，足球之类的，那么主题模型就会把它划分为体育类的文章。因为主

2017-12-06 14:50:13 85554 10

原创手推SVM（一）-数学推导

SVM的想法SVM中在数学上目标 2.1 判定条件 2.2 最大间隔假设SVM的推导 3.1 第一种境界 3.2 第二种境界SVM的推导过程和他的地位一样重要，虽然很久以前就已经接触过SVM了，但总感觉理解不是很深，接着听课的热度，顺便写篇文章让自己理解更深刻一点，本文假设你只会简单的向量乘法，推导出SVM。 1.SVM的想法监督学习，作为一个二分类任务，在平面上表示就是希望有这

2017-12-05 21:40:16 10174 2

原创（CNN）卷积神经网络（五）常见卷积神经网络

LetnetAlexnetZFnetVGGGooglenetResnet: Deep Residual Learning Networkfine-tune第一篇文章介绍了卷积神经网络的数据输入形式和权值的初始化：CNN）卷积神经网络（一）第二篇文章介绍了卷积操作，常用的激活函数（CNN）卷积神经网络（二）第三篇介绍了卷积神经网络的池化层，可视化理解以及用数学的角度理解卷积操作：

2017-12-04 22:42:53 836

原创（CNN）卷积神经网络（四）dropout

第一篇文章介绍了卷积神经网络的数据输入形式和权值的初始化：CNN）卷积神经网络（一）第二篇文章介绍了卷积操作，常用的激活函数（CNN）卷积神经网络（二）第三篇介绍了卷积神经网络的池化层，可视化理解以及用数学的角度理解卷积操作：（CNN）卷积神经网络（三) dropout第一种理解方式大家应该都有了解过集成学习吧，不了解也没关系，在我看来，集成学习最牛逼的想法就是利用自主采样

2017-12-04 21:25:36 19886 2

原创（CNN）卷积神经网络（三）-理解卷积操作

1-池化层pooling layer2- FC全连接层3-可视化理解4- CNN的训练算法5-从数学的角度理解卷积第一种思路降维打击第二种思路傅立叶变换与卷积第一篇文章介绍了卷积神经网络的数据输入形式和权值的初始化：CNN）卷积神经网络（一）第二篇文章介绍了卷积操作，常用的激活函数（CNN）卷积神经网络（二下面来看一下接下来的层级结构： 1-池化层（po

2017-12-04 19:05:02 2597

原创（CNN）卷积神经网络（二）

卷积计算层 1.1卷积的通俗理解-为什么参数会大大减少 1.2卷积的计算ReLu激励层／ReLu layer 2.1 为什么要用激励层？ 2.2 sigmoid函数 2.3 tanh函数 2.4 RELU 2.5 Leaky-Relu 2.6 maxout 2.7 所有激活函数汇总上一篇文章（（CNN）卷积神经网络（一））说了卷积神经网络的层级结构和数据输入层的数据具体是怎么处

2017-12-04 14:04:06 1318

空空如也

空空如也