自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

渐渐遗忘的记忆

我思故我在

  • 博客(16)
  • 收藏
  • 关注

原创 TensorFlow实战(四)- 使用TensorFlow实现去噪自编码器

一,自编码器简介1,什么是自编码器自编码器,顾名思义,即可以使用自身的高阶特征编码自己。自编码器其实是一种神经网络,它的输入和输出是一致的,它借助稀疏编码的思想,目标是使用稀疏的一些高阶特征重新组合来重构自己。特征如下:期望输入和输出一致。希望使用高阶特征来重构自己,而不只是复制像素点。如下图所示: 因为自编码器希望使用少量稀疏的高阶特征来重构输入,所有有几种限...

2018-03-19 00:38:03 2604 2

原创 TensorFlow实战(三)- 使用SoftMax Regression识别手写体数字(包含基础)

一,TensorFlow实现机器学习算法的基础1,核心步骤1. 定义算法公式,也就是神经网络forward时的计算。 2. 定义loss,选定优化器,并指定优化器优化loss。 3. 迭代地对数据进行训练。 4. 在测试集或验证集上对准确率进行评测。 这几个步骤是TensorFlow进行算法设计、训练的核心步骤,只有当调用run方法,并feed数据时计算才真正执行计算图...

2018-03-17 14:05:42 370

原创 TensorFlow实战(二)- TensorBoard简介

TensorBoard是TensorFlow的一组web组件,用来监控TensorFlow的运行过程或可视化计算图。 TensorBoard目前支持5种可视化:标量图片音频直方图计算图TensorBoard的几种工具:Events DashBoard:可以用来监控运行时的关键指标,如loss、学习速率或者验证集上的准确率。 Image DashBoard:展示训练过...

2018-03-16 22:05:05 297

原创 TensorFlow实战(一)- TensorFlow基础

一,TensorFlow基础架构和主要技术特性 二,TensorFlow编程模型核心概念1,计算图计算图描述了数据的计算流程,也负责维护和更新状态,用户可以对计算图的分支进行条件控制和循环控制。节点(node):每个节点描述了一个运算操作(operation),可以有任意多输入和输出。边(edge):流动着数据,边中流动的数据成为张量(tensor)。...

2018-03-16 19:59:12 493

原创 机器学习实战第八章 - 预测数值型数据:回归

一,线性回归1,线性回归的特点线性回归优点:结果易于理解,计算上不复杂缺点:对非线性的数据拟合不好适用数据类型:数值型和标称型数据2,线性回归的要素(1)线性回归模型:h(xi)=xTi∗wh(x_i) = x_i^T*w (2)目标函数:J(w)=12m∑i=1m(yi−h(xi))J(w) = \frac{1}{2m}\sum_{i=1}^{m}(y_i-h(x_i)) (3)最优

2018-03-16 13:46:26 583

原创 NLP概述

一,NLP问题的提出语言是思维的载体,是人类交流思想、表达情感最自然、最直接、最方便的工具。人类历史上以语言文字形式记载和流传的知识占知识总量的80%上。全世界正在使用的语言有1900多种。所以,如何让计算机自动地理解人类的语言是极其重要的。二,基本概念HLT:人类语言技术NLU:自然语言理解CL:自然语言学NLP:自然语言处理它们之间的关系如下: ...

2018-03-12 20:54:27 851

原创 深度学习概述与基础

一,深度学习的基础结构 - 神经网络神经网络工作流程二,DL与AI、ML的比较AI:任何能使计算机模仿人类行为的技术。ML:是计算机具有在没有显示编程的情况下学习的能力。DL:使用神经网络学习数据底层的特征。1,它们之间的包含关系2,它们之间的原理差异三,欠拟合和过拟合欠拟合的原因可能有:模型本身复杂度不够很难找到目标函数的全局最...

2018-03-12 20:07:11 516

原创 Python自然语言处理第四章 - 编写结构化程序

一,基础1,赋值 2,等式==只是检查两个变量的内容是否相同,并不能判断出它们的标识符是否一样。is是测试对象的标识符是否一样的。二,序列1,元组 例如:>>> t = 'walk', 'fem', 3>>> t('walk', 'fem', 3)2,序列类型上的操作zip()函数与enumerate()函数>>> words = ['I', 'turned', 'off', 'the

2018-03-11 18:32:10 469

原创 机器学习实战第十一章 - 使用Apriori算法进行关联分析

一,关联分析(或关联规则学习)关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系主要有两种形式:频繁项集:经常出现在一块的物品的集合。关联规则:暗示两种物品之间可能存在很强的关系。量化关联分析是否成功的评价准则也有两个:支持度(support):支持度是针对频繁项集来定义的,一个项集的支持度被定义为数据集中包含该项集的记录所占的比例。置信度(confidence)...

2018-03-11 15:01:20 964 1

原创 机器学习实战第十章 - K均值聚类算法

一,K均值聚类算法1,特点优点:容易实现。缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢。适用数据类型:数值型数据。2,伪代码创建k个点作为起点质心(经常是随机选择)当任意一个点的簇分配结果发生改变时 对数据集中的每个数据点 对每个质心 计算质心与数据点之间的距离 将数据点分配到距其最近的簇...

2018-03-10 19:40:45 615

原创 Python自然语言处理第三章 - 详解一个简单的分词方法

有些语言的书写系统,由于没有词边界的可视表示这一事实,使得文本分词变得更加困难。 这里介绍一种简单的分词方法。一,分词问题描述对以下没有明显词边界的句子进行分词:doyouseethekittyseethedoggydoyoulikethekittylikethedoggy遇到的第一个挑战仅仅是表示这个问题:我们需要找到一种方法来分开文本内容与分词 标志。 我们可以给每个字符标注一个

2018-03-10 15:28:12 874

原创 Python自然语言处理第三章 - 处理原始文本

一,从网络和硬盘访问文本1,电子书>>> raw = requests.get('http://gutenberg.org/files/2554/2554-0.txt').content>>> raw[:10]b'\xef\xbb\xbfThe Pro'>>> raw = raw.decode('utf-8')[1:]>>> raw[:10]'The Projec'>>> tokens

2018-03-10 14:55:16 768

原创 机器学习实战第七章 - 利用AdaBoost元算法提高分类性能

一,AdaBoost概述AdaBoost是adaptive boosting(自适应boosting)的缩写。 AdaBoost是一种Boosting族的集成学习方法。弱学习器之间是强依赖序列化的,即不同的学习器是通过串行训练而获得的,每个新分类器都根据已训练出来的分类器的性能来进行训练。Boosting是通过集中关注被已有分类器错分的那些数据来获得新的分类器。AdaBoost特点如下:...

2018-03-08 17:10:44 1210

原创 分类效果最好的经典机器学习算法-SVM

SVM整体框架

2018-03-05 17:30:01 1697

原创 信息检索整体框架

信息检索整体框架如下:

2018-03-05 17:16:12 1210

原创 机器学习实战第五章 - Logistic回归(包括GD和SGD的比较)

一,Logistic回归 优点:计算代价不高,易于理解和实现。缺点:容易欠拟合,分类精度可能不高。适用数据类型:数值型和标称型。主要就是利用sigmoid函数σ(z)=11+exp−zσ(z)=11+exp−z\sigma(z)=\frac{1}{1+exp^{-z}}的特点,如下图所示: 令z=WTXz=WTXz=W^TX,如果z>0z>0z>0即σ(z)&gt...

2018-03-05 16:53:10 1587

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除