2018年03月_潜心修行的研究者

原创 TensorFlow实战（四）- 使用TensorFlow实现去噪自编码器

一，自编码器简介1，什么是自编码器自编码器，顾名思义，即可以使用自身的高阶特征编码自己。自编码器其实是一种神经网络，它的输入和输出是一致的，它借助稀疏编码的思想，目标是使用稀疏的一些高阶特征重新组合来重构自己。特征如下：期望输入和输出一致。希望使用高阶特征来重构自己，而不只是复制像素点。如下图所示：因为自编码器希望使用少量稀疏的高阶特征来重构输入，所有有几种限...

2018-03-19 00:38:03 2604 2

原创 TensorFlow实战（三）- 使用SoftMax Regression识别手写体数字（包含基础）

一，TensorFlow实现机器学习算法的基础1，核心步骤1. 定义算法公式，也就是神经网络forward时的计算。 2. 定义loss，选定优化器，并指定优化器优化loss。 3. 迭代地对数据进行训练。 4. 在测试集或验证集上对准确率进行评测。这几个步骤是TensorFlow进行算法设计、训练的核心步骤，只有当调用run方法，并feed数据时计算才真正执行计算图...

2018-03-17 14:05:42 370

原创 TensorFlow实战（二）- TensorBoard简介

TensorBoard是TensorFlow的一组web组件，用来监控TensorFlow的运行过程或可视化计算图。 TensorBoard目前支持5种可视化：标量图片音频直方图计算图TensorBoard的几种工具:Events DashBoard：可以用来监控运行时的关键指标，如loss、学习速率或者验证集上的准确率。 Image DashBoard：展示训练过...

2018-03-16 22:05:05 297

原创 TensorFlow实战（一）- TensorFlow基础

一，TensorFlow基础架构和主要技术特性二，TensorFlow编程模型核心概念1，计算图计算图描述了数据的计算流程，也负责维护和更新状态，用户可以对计算图的分支进行条件控制和循环控制。节点(node)：每个节点描述了一个运算操作(operation)，可以有任意多输入和输出。边(edge)：流动着数据，边中流动的数据成为张量(tensor)。...

2018-03-16 19:59:12 493

原创机器学习实战第八章 - 预测数值型数据：回归

一，线性回归1，线性回归的特点线性回归优点：结果易于理解，计算上不复杂缺点：对非线性的数据拟合不好适用数据类型：数值型和标称型数据2，线性回归的要素(1)线性回归模型：h(xi)=xTi∗wh(x_i) = x_i^T*w (2)目标函数：J(w)=12m∑i=1m(yi−h(xi))J(w) = \frac{1}{2m}\sum_{i=1}^{m}(y_i-h(x_i)) (3)最优

2018-03-16 13:46:26 583

原创 NLP概述

一，NLP问题的提出语言是思维的载体，是人类交流思想、表达情感最自然、最直接、最方便的工具。人类历史上以语言文字形式记载和流传的知识占知识总量的80%上。全世界正在使用的语言有1900多种。所以，如何让计算机自动地理解人类的语言是极其重要的。二，基本概念HLT：人类语言技术NLU：自然语言理解CL：自然语言学NLP：自然语言处理它们之间的关系如下： ...

2018-03-12 20:54:27 851

原创深度学习概述与基础

一，深度学习的基础结构 - 神经网络神经网络工作流程二，DL与AI、ML的比较AI：任何能使计算机模仿人类行为的技术。ML：是计算机具有在没有显示编程的情况下学习的能力。DL：使用神经网络学习数据底层的特征。1，它们之间的包含关系2，它们之间的原理差异三，欠拟合和过拟合欠拟合的原因可能有：模型本身复杂度不够很难找到目标函数的全局最...

2018-03-12 20:07:11 516

原创 Python自然语言处理第四章 - 编写结构化程序

一，基础1，赋值 2，等式==只是检查两个变量的内容是否相同，并不能判断出它们的标识符是否一样。is是测试对象的标识符是否一样的。二，序列1，元组例如：>>> t = 'walk', 'fem', 3>>> t('walk', 'fem', 3)2，序列类型上的操作zip()函数与enumerate()函数>>> words = ['I', 'turned', 'off', 'the

2018-03-11 18:32:10 469

原创机器学习实战第十一章 - 使用Apriori算法进行关联分析

一，关联分析（或关联规则学习）关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系主要有两种形式：频繁项集：经常出现在一块的物品的集合。关联规则：暗示两种物品之间可能存在很强的关系。量化关联分析是否成功的评价准则也有两个：支持度(support)：支持度是针对频繁项集来定义的，一个项集的支持度被定义为数据集中包含该项集的记录所占的比例。置信度(confidence)...

2018-03-11 15:01:20 964 1

原创机器学习实战第十章 - K均值聚类算法

一，K均值聚类算法1，特点优点：容易实现。缺点：可能收敛到局部最小值，在大规模数据集上收敛较慢。适用数据类型：数值型数据。2，伪代码创建k个点作为起点质心（经常是随机选择）当任意一个点的簇分配结果发生改变时对数据集中的每个数据点对每个质心计算质心与数据点之间的距离将数据点分配到距其最近的簇...

2018-03-10 19:40:45 615

原创 Python自然语言处理第三章 - 详解一个简单的分词方法

有些语言的书写系统，由于没有词边界的可视表示这一事实，使得文本分词变得更加困难。这里介绍一种简单的分词方法。一，分词问题描述对以下没有明显词边界的句子进行分词：doyouseethekittyseethedoggydoyoulikethekittylikethedoggy遇到的第一个挑战仅仅是表示这个问题：我们需要找到一种方法来分开文本内容与分词标志。我们可以给每个字符标注一个

2018-03-10 15:28:12 874

原创 Python自然语言处理第三章 - 处理原始文本

一，从网络和硬盘访问文本1，电子书>>> raw = requests.get('http://gutenberg.org/files/2554/2554-0.txt').content>>> raw[:10]b'\xef\xbb\xbfThe Pro'>>> raw = raw.decode('utf-8')[1:]>>> raw[:10]'The Projec'>>> tokens

2018-03-10 14:55:16 768

原创机器学习实战第七章 - 利用AdaBoost元算法提高分类性能

一，AdaBoost概述AdaBoost是adaptive boosting(自适应boosting)的缩写。 AdaBoost是一种Boosting族的集成学习方法。弱学习器之间是强依赖序列化的，即不同的学习器是通过串行训练而获得的，每个新分类器都根据已训练出来的分类器的性能来进行训练。Boosting是通过集中关注被已有分类器错分的那些数据来获得新的分类器。AdaBoost特点如下：...

2018-03-08 17:10:44 1210

原创分类效果最好的经典机器学习算法-SVM

SVM整体框架

2018-03-05 17:30:01 1697

原创信息检索整体框架

信息检索整体框架如下：

2018-03-05 17:16:12 1210

原创机器学习实战第五章 - Logistic回归（包括GD和SGD的比较）

一，Logistic回归优点：计算代价不高，易于理解和实现。缺点：容易欠拟合，分类精度可能不高。适用数据类型：数值型和标称型。主要就是利用sigmoid函数σ(z)=11+exp−zσ(z)=11+exp−z\sigma(z)=\frac{1}{1+exp^{-z}}的特点，如下图所示：令z=WTXz=WTXz=W^TX,如果z>0z>0z>0即σ(z)&gt...

2018-03-05 16:53:10 1587

渐渐遗忘的记忆