自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

FontTian的博客

【数据启示录】数据是现实世界的一种表现形式,也是我们认识世界,改造现实的燃料。

  • 博客(235)
  • 资源 (5)
  • 收藏
  • 关注

原创 9.1 mnist_softmax 交叉熵多分类器

softmax交叉熵多分类器具体含义不再解释,这是一个我们比较常用的一个多分类器.深度学习的一大优点就是特征的自动构建,也正是因为该优点,使得分类器层显得不再那么重要,在Tensorflow的官方源码中,softmax是很常见的一个多分类器.其调用也十分的简单.此处再此单独拿出来介绍,是为了下一步的学习做准备.使用方法 cross_entropy = tf.reduce_mean( t

2017-10-23 21:14:50 1324

原创 Python自定义:粒子群优化算法

#!usr/bin/env python#-*- coding:utf-8 _*-"""@author:fonttian @file: 粒子群优化算法.py@time: 2017/10/15"""# References from : http://blog.csdn.net/kunshanyuz/article/details/63683145import numpy as npim

2017-10-16 20:58:59 3650

原创 deap实战_2017中国数学建模大赛_B题_第二题

简介原问题是给出一个定价策略,证明其相较于原来定价策略的优点.那么首先我们第一题第二问得到了一个 价格-完成率 函数,此时我们需要的是给出一个新的定价函数,并利用遗传算法得到最佳参数.思路编码–>我们需要编码的是定价函数的参数评价函数—->将编码输入的定价函数得到价格,然后将价格输入之前得到的 价格-完成率 函数得到完成率求解的目标应当是最大化完成率为了控制成本需要对价格进行一定的限制,避免

2017-10-16 20:37:07 5077 4

原创 Deap : 遗传算法算法解决 背包问题

特殊自定义评价函数同前def evalKnapsack(individual): weight = 0.0 value = 0.0 for item in individual: weight += items[item][0] value += items[item][1] if len(individual) > MAX_ITEM

2017-10-16 20:02:58 5430

原创 Deap: 粒子群优化算法

Source Code#!usr/bin/env python#-*- coding:utf-8 _*-"""@author:fonttian @file: Particle Swarm Optimization Basics.py @time: 2017/10/15 """# ----------------------Modules----------------------im

2017-10-16 19:41:02 3309 1

原创 Deap: python中的遗传算法工具箱

也就是设计主程序的地方,按照官网给的模式,我们要早此处设计其他参数,并设计迭代和取值的代码部分,并返回我们所需要的值.''''''print(" Evaluated %i individuals" % len(pop)) # 这时候,pop的长度还是300呢要注意的地方就是,官网中给出的Overview代码中有一行代码是错误的,需要把一个数据类型(map)转换为list.

2017-10-16 19:35:33 23101 10

原创 sklearn中的Pipline(流水线学习器)

简介管道机制实现了对全部步骤的流式化封装和管理(streaming workflows with pipelines)。管道机制(也有人翻译为流水线学习器?这样翻译可能更有利于后面内容的理解)在机器学习算法中得以应用的根源在于,参数集在新数据集(比如测试集)上的重复使用。使用管道机制可以大幅度减少代码量.总的来说这是一个非常实用而有趣的方法注意:管道机制更像是编程技巧的创新,而非算法的创新。 通

2017-10-14 14:37:27 5760

原创 数据科学-通过数据探索了解我们的特征

简介对于数据科学而言,我们要做的第一件事情,必然是了解我们的数据.而在数据探索期间,pandas和matplotlib 则是我们进行数据探索的利器.本文主要分为三个部分,第一部分是利用pandas进行一些基础的数据分析,第二部分是利用pandas自身功能进行一些有用的数据探索,最重要的是第三部分,利用pandas与matplotlib ,scikit-learn中的工具以及数据与算法本身的一些特性对

2017-10-10 07:41:38 2377

转载 机器学习实战-数据探索(变量变换、生成)

原文链接:点击打开链接《机器学习实战-数据探索(1、变量识别;2、单变量分析;3、双变量分析)》 机器学习实战-数据探索(缺失值处理) 机器学习实战-数据探索(异常值处理) 上面三篇文章介绍了数据探索的前五步,机器学习更多内容可以关注github项目:machine learning1 变量变换1.1 什么是变量变换?在数据建模中,变换是指通过函数替换变量。 例如,通过平方/立...

2017-10-09 20:46:51 1497

原创 Pandas matplotlib 无法显示中文 Ubuntu16.04

版本Ubuntu16.04 python3.6.2具体步骤运行代码#!usr/bin/env python#-*- coding:utf-8 _*-"""@author:fonttian@file: testCN.py@time: 2017/09/26"""from matplotlib.font_manager import FontManagerimport subproce

2017-09-26 21:52:42 1358

原创 Intel MKL FATAL ERROR: Cannot load libmkl_avx2.so or libmkl_def.so.

之前在运行一个文件时,发生了这个问题,排查了一下是wineModel = LassoCV(cv=10).fit(X, Y) 这行代码组成的.Intel MKL FATAL ERROR: Cannot load libmkl_avx2.so or libmkl_def.so.英特尔MKL致命错误:不能加载libmkl_avx2。所以还是libmkl_def.so。刚看到这个错误确实吓了我一跳,怎么

2017-09-23 15:23:45 3321

原创 linux ubuntu 16.04下deb文件的安装以及一些问题的解决

pkg 是Debian Package的简写,是为Debian 专门开发的套件管理系统,方便软件的安装、更新及移除。所有源自Debian的Linux发行版都使用dpkg,例如Ubuntu、Knoppix 等。在安装许多deb文件时,我们都需要使用该命令。常用的dpkg命令:1、sudo dpkg -i 安装一个 Debian 软件包,如你手动下载的文件。2、sudo dpkg -c

2017-09-22 19:41:39 24594

原创 Hadoop集群扩展子节点

上次发了部署八节点hadoop集群的博客,本来想把master也做为一个datanode,后来感觉不太合适,最后决定还是扩展一个子节点吧。首先是准备新的节点安装jdkhttp://blog.csdn.net/fontthrone/article/details/77915256配置sshhttp://blog.csdn.net/fontthrone/article/details/7791663

2017-09-22 19:39:39 1355

原创 8.2 TensorFlow实现KNN与TensorFlow中的损失函数,优化函数

前言8.1 mnist_soft,TensorFlow构建回归模型中对主要对计算图的概念与公式与计算图的转化进行了介绍,8.2则主要介绍一下TensorFlow中自带的几个算子,与优化函数,损失函数的定义,并以KNN的例子进行整体的串联.加载数据,依旧使用mnist手写数字的数据# 导入数据from tensorflow.contrib.learn.python.learn.datasets im

2017-09-13 22:42:01 1448

原创 8.3 TensorFlow BP神经网络构建与超参数的选取

前言之前的8.1 构建回归模型的重点在于计算图概念,8.2则介绍一些在整个流程中更靠后的部分:损失函数,优化函数,以及一些其他常用的函数.而本片中的重点在于构建计算图,与模型的训练与测试BP代码与讲解设置数据之所以对第一次生成的随机数据进行存储主要是为了能够进行后面的超参数的选取# 生成与加载数据# 构造满足一元二次方程的函数def Build_Data(): Path_x_data =

2017-09-13 20:58:14 3038

转载 聊一聊深度学习的weight initialization

转载自:https://zhuanlan.zhihu.com/p/25110150TLDR (or the take-away)Weight Initialization matters!!! 深度学习中的weight initialization对模型收敛速度和模型质量有重要影响!在ReLU activation function中推荐使用Xavier Initi

2017-09-13 20:19:19 2593

转载 聊一聊深度学习的activation function

转载自:https://zhuanlan.zhihu.com/p/25110450TLDR (or the take-away)优先使用ReLU (Rectified Linear Unit) 函数作为神经元的activation function:背景深度学习的基本原理是基于人工神经网络,信号从一个神经元进入,经过非线性的activation function,传入到

2017-09-13 20:16:57 1561

原创 Hadoop-2.7.4 八节点分布式集群安装

先感叹一下准备因为之前已经有安装经验了(虚拟机的三节点分布式,按过几次),再加上对Ubuntu还算比较熟悉中间也算少踩了不少坑。因为这次主要是老师要求所以,才打算再自己安装一次apche hadoop版本,其实现在我个人还是更支持CDH搭建大数据开发平台的,但是最近时间略紧,国庆节再弄吧。后来想着之前虚拟机和伪分布式练习语法已经足够了,这次要来就是直接来能工程运用的,于是安装八节点的Hadoop-2

2017-09-10 16:41:40 1866

原创 SSH免密码登录命令无法生效?直接复制粘贴也可以!

SSH配置主节点登录其他节点时的最后一个命令,按照上一篇写的有时候会无法生效。其实那一行命令只是将主节点的公钥复制到了次节点的公钥文件里而已,如果无法生效的话,直接复制粘贴也可以。我在无法生效时就直接复制粘贴的。比如我主节点的公钥如下ssh-rsa AAAAB3NzaC1yc2EAAAADAQABAAABAQC3SLSuxswfOzBEiDVp7bge3kAv5YohEctjFcvWwtHglWof

2017-09-09 18:11:34 2883

原创 Ubuntu16.04 配置SSH无密码登录

确认需要集群的主机名与IP地址,修改主机名字的命令sudo gedit /etc/hostname如果修改了主机名,请重启,没有则下一步在每个主机上都下载ssh sudo apt-get install openssh-server 关闭防火墙,sudo ufw disable生成公钥密钥,ssh-keygen建立信任连接列表,cat ~/.ssh/id_rsa.pub>>~/.ssh/au

2017-09-09 17:34:07 2767

原创 Ubuntu 16.04 安装JDK

# 安装Oracle JDK hadoop建议使用Oracle JDK 第一步: 将webupd8team存储库添加到apt我们将使用命令add-apt-repository通过以下命令添加webupd8team存储库:sudo apt install python-software-properties# 如果上面这条命令没有执行,也可以安装Oracle JDK就是会变得很慢sudo

2017-09-09 14:50:49 2052

原创 8.1 mnist_soft,TensorFlow构建回归模型

背景之前已经写了很多TensorFlow的基本知识,现在利用TensorFlow实现一些简单的功能,对原来的知识进行串联,并初步入门,该部分共包括三篇,分别实现的是回归模型,浅层神经网络,KNN。TensorFlow构建回归模型本代码的构建步骤建立公式的计算图损失函数与优化器加载数据启动会话,训练与测试建立计算图在TensorFlow中构建模型,我们首先需要实现的一个计算图,然后再在Ses

2017-09-07 22:20:25 943

原创 Ubuntu16.04 安装Python开发环境

安装PycharmPycharm下载与准备官网下载无需多言:https://www.jetbrains.com/pycharm/download/#section=linux安装JDKUbuntu16.04建议安装openjdksudo apt install default-jdk# 检验java -version安装右键提取到。。。,如果不行则搜一下“Ubuntu 解压 xxx文件”

2017-09-07 20:41:35 3472

原创 Ubuntu16.04 安装谷歌浏览器并配置常用插件与扩展

安装google浏览器请参考网址:http://www.linuxidc.com/Linux/2016-05/131096.htm环境依赖问题不再多写,建议参考我的上一篇文章http://blog.csdn.net/fontthrone/article/details/77885956配置插件与扩展,最好先能够登录google的应用商店修改hosts或者其他方法即可http://blog.cs

2017-09-07 20:21:05 10323 1

原创 安装Ubuntu16.04并安装sogoupiyin for linux

制作启动硬盘,安装Ubuntu16.04参考地址linux公社http://www.linuxidc.com/Linux/2015-10/123786.htm但是注意如果下载U盘启动盘程序,别点错了,Liunx公社给的下载页面的下载按钮有好几个,别点错了,我一开始就没注意名字,下载成了别的程序。上面页面给的程序,可以使用本地硬盘制作启动盘,也可以使用程序自行下载镜像,使用那个程序下载镜像要注意小

2017-09-07 20:01:26 1849

原创 5.2 TensorFlow:模型的加载,存储,实例

背景之前已经写过TensorFlow图与模型的加载与存储了,写的很详细,但是或闻有人没看懂,所以在附上一个关于模型加载与存储的例子,.其中模型很巧妙,比之前numpy写一大堆简单多了,这样有利于把主要注意力放在模型的加载与存储上.解析创建保存文件的类:saver = tf.train.Saver()saver = tf.train.Saver() ,即为常见保存模型

2017-08-12 13:06:24 5099 4

翻译 卷积神经网络(cnn)的体系结构

译者注内容有部分增加与补充,阅读原文请点击这里原作者的文章其实更利于读者对卷积本身的理解,但是实际上作者对卷积的现实意义的理解并没有解释的十分清楚,甚至可能不利于堵着的理解,也正因为如此我在翻译过程中可能对原文进行了比较大的改动,希望这对你有帮助.实际上上卷积神经网络是来自神经学的研究,其计算过程实际上模拟了视觉神经系统的运算过程.这一部分内容其翻阅其他文章....

2017-08-10 21:49:01 5264 1

原创 Python ML环境搭建与学习资料推荐

python下载anconda更新pip源 参考文章一: Python类库三两事 - 一次解决:http://blog.csdn.net/FontThrone/article/details/76560698 参考文章二:Anaconda多环境多版本python配置指导http://blog.csdn.net/fontthrone/article/details/76560293IDE下

2017-08-10 10:51:01 1697

原创 TypeError: Can not convert a float32 into a Tensor or Operation.

错误TypeError: Can not convert a float32 into a Tensor or Operation.# 类型错误:不能将一个浮动32转换为一个张量或操作。TypeError: Fetch argument 2.3025854 has invalid type <class 'numpy.float32'>, must be a string or Tensor. (

2017-08-09 21:03:55 14184 14

原创 脚本:获取CSDN文章的访问量

目标获取所有文章名,链接,阅读人数,评论数以适合pandas读取的格式存储之分析页面跳转首页:http://blog.csdn.net/fontthrone?viewmode=list 第二页:http://blog.csdn.net/FontThrone/article/list/2 三四页以此类推 根据第二三四页的格式尝试http://blog.csdn.net/FontThrone

2017-08-06 14:52:03 1294

原创 Python中的argparse模块

简介argparse是python用于解析命令行参数和选项的标准模块,用于代替已经过时的optparse模块。argparse模块的作用是用于解析命令行参数. 如果你想详细的了解它的功能.建议阅读这个,或者这个 本篇文章只对其基本功能进行介绍,并对TensorFlow的examples中argarse使用进行详细的介绍功能原本的功能是命令行解析模块使用argparse的第一步就是创建一个解析器对

2017-08-05 20:44:25 3049 1

原创 7.3 TensorFlow笔记(基础篇):加载数据之从队列中读取

前言整体步骤在TensorFlow中进行模型训练时,在官网给出的三种读取方式,中最好的文件读取方式就是将利用队列进行文件读取,而且步骤有两步: 1. 把样本数据写入TFRecords二进制文件 2. 从队列中读取数据读取TFRecords文件步骤使用队列读取数TFRecords 文件 数据的步骤 1. 创建张量,从二进制文件读取一个样本数据 2. 创建张量,从二进制文件随机读取一个mi

2017-08-05 17:39:20 1783 3

原创 7.1 TensorFlow笔记(基础篇):加载数据之预加载数据与填充数据

TensorFlow加载数据TensorFlow官方共给出三种加载数据的方式: 1. 预加载数据 2. 填充数据 预加载数据的缺点: 将数据直接嵌在数据流图中,当训练数据较大时,很消耗内存.填充的方式也有数据量大,消耗内存高的缺点,并且数据类型的转换等中间环节增加了不少开销(之前的笔记示例中主要使用的这两种方式).最好用第三种方法,在图中定义好文件读取的方法,让Tensorflow 自己从

2017-08-05 17:24:02 1631

原创 7.2 TensorFlow笔记(基础篇): 生成TFRecords文件

前言在TensorFlow中进行模型训练时,在官网给出的三种读取方式,中最好的文件读取方式就是将利用队列进行文件读取,而且步骤有两步: 1. 把样本数据写入TFRecords二进制文件 2. 从队列中读取TFRecords二进制文件,能够更好的利用内存,更方便的移动和复制,并且不需要单独的标记文件 下面官网给出的,对mnist文件进行操作的code,具体代码请参考:tensorflow-m

2017-08-05 17:18:50 2358

原创 6.1 Tensorflow笔记(基础篇):队列与线程

前言在Tensorflow的实际应用中,队列与线程是必不可少,主要应用于数据的加载等,不同的情况下使用不同的队列,主线程与其他线程异步进行数据的训练与读取,所以队列与线程的知识也是Tensorflow必须要学会的重要知识 另一方面,Tensorflow作为符号编程框架,在构图后,加载数据有三种方式,预加载与填充数据都存在,数据量大消耗内存等情况的出现.使用第三种方式文件读取避免了前两者的缺点,但是

2017-08-04 21:49:40 3980 2

原创 5.1 Tensorflow:图与模型的加载与存储

前言自己学Tensorflow,现在看的书是《TensorFlow技术解析与实战》,不得不说这书前面的部分有点坑,后面的还不清楚.图与模型的加载写的不清楚,书上的代码还不能运行=- =,真是BI….咳咳.之后还是开始了查文档,翻博客的填坑之旅 ,以下为学习总结.快速应用存储与加载,简单示例# 一般而言我们是构建模型之后,session运行,但是这次不同之处在于我们是构件好之后存储了模型# 然后在

2017-08-04 12:12:51 4542 1

原创 3.1 Tensorflow: 批标准化(Batch Normalization)

批标准化(Batch Normalization )简称BN算法,是为了克服神经网络层数加深导致难以训练而诞生的一个算法。根据ICS理论,当训练集的样本数据和目标样本集分布不一致的时候,训练得到的模型无法很好的泛化。而在神经网络中,每一层的输入在经过层内操作之后必然会导致与原来对应的输入信号分布不同,并且前层神经网络的增加会被后面的神经网络不对的累积放大。

2017-08-04 01:19:49 21720 2

原创 4.2 Tensorflow笔记:池化函数

池化层的输入一般来源于上一个卷积层,主要作用是提供了很强的鲁棒性(例如max-pooling是取一小块区域中的最大值,此时若此区域中的其他值略有变化,或者图像稍有平移,pooling后的结果仍不变),并且减少了参数的数量,防止过拟合现象的发生,同时参数的减少对于计算而言也有一定的帮助。其中,input为输入,conv为卷积层,由卷积核构成,pool为池层,由池化函数构成最后是全连接层与输出层,其负责对卷积层提取的特征进行处理以获得我们需要的结果。。

2017-08-04 01:16:22 14708 5

原创 4.1 Tensorflow:卷积函数

[batch,in_height,in_width,in_channels],例如mnist中的输入图像为 28 * 28 的黑白图像,其张量即为[batch,28,28,1],1代表黑白,RGB彩色图像的通道则为3,而batch 则为输入的图像数量,一次输入10张图片时,其为10,20张时则为20。tf.nn.conv2d:对一个思维的输入数据 input 和四维的卷积核filter 进行操作,然后对输入的数据进行二维的卷积操作,得到卷积之后的结果,也是我们最常用的卷积函数。,则会缩小原图像的大小.

2017-08-04 01:12:27 23640 10

原创 1.1 Tensorflow笔记(基础篇): 图与会话,变量

图与会话import tensorflow as tfimport os# 取消打印 cpu,gpu选择等的各种警告# 设置TF_CPP_MIN_LOG_LEVEL 的等级,1.1.0以后设置2后 只不显示警告,之前需要设置3,但设置3不利于调试os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'import time# 创建一个常量 op, 产生一个 1x2 矩

2017-08-03 23:11:54 1126

汉语交叉依存非投射现象

一般语言中存在着投射性现象,但是在汉语中也存在非投射现象.本论文是对汉语中非投射现象的证明.伪汉语自然语言处理经典论文之一.

2018-10-03

mongo开发指南

mongodb开发指南,适合新手入门用.这本书本身是我们老师教授nosql数据库时自己制作的教材.

2018-10-03

wps for linux 2017版本

wps for linux 2017版本,安装的时候主要环境依赖,也可以去官网下载,但是现在官网不知道为什么只有2016的版本,不知道到是不是我没找到,还是怎么着.

2017-11-21

数据科学与人工智能

非常非常简洁的演讲时使用的ppt,我的眼睛以脱稿为主,所以本ppt内容很少,很少

2017-11-17

中文停用词表 英文停用词表 中英文停用词表

多版本 中文停用词表 英文停用词表 中英文停用词表 以及python停用词词表合并程序(2个)

2017-07-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除