自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 收藏
  • 关注

转载 分类问题的几个评价指标

转自https://blog.csdn.net/simplelovecs/article/details/505206021. 四个概念定义:TP、FP、TN、FN先看四个概念定义: - TP,True Positive - FP,False Positive - TN,True Negative - FN,False Negative如何理解记忆这四个概念定义呢?举个简单的二元分类问题 例子:假...

2018-05-25 21:40:55 1263 2

原创 Hadoop和GPU的区别

最近学习大数据,突然想到一个问题,hadoop/spark 和GPU什么关系。为什么有的问题要并行计算,交给GPU处理,有的交给分布式hadoop处理。偶然间看到一条知乎,受到点启发,觉得应该是这样的:首先有两种情况:数据密集型、计算密集型数据密集型:数量大,但是对每一条数据的处理并不一定麻烦,比如,对1T的文件统计字数,可以交给10台机器分别统计。计算密集型:数量并不一定大,但是对每条数据的计算...

2018-04-08 16:34:33 2409

原创 spark的原理和部署(二)on yarn

关于spark的集群有三种部署模式, mesos  yarn  standalone,对应着三种不同的资源管理方式,因为前段时间搭建了hadoop集群,所以先来了解下 on yarn的集群部署方式。首先启动集群start-all.sh测试:本地运行spark-shell程序:wh@master:/usr/local/spark/bin$ spark-shell --master local[2]#...

2018-04-08 16:12:50 517

原创 Spark的原理和部署(一),local

参考书籍:Hadoop  Spark大数据巨量分析与机器学习   林大贵spark的cluster模式架构图,其中:DriverProgram就是程序员所设计的Spark程序,在Spark程序中必须定义sparkcontext,他是开发Spark应用程序的入口。SparkContext通过Cluster Manager管理整个集群,集群中包含多个worker节点,每个工作节点都有executer负...

2018-04-08 13:58:01 460

原创 hadoop跑第一个python wordcount程序

参考博客:https://www.cnblogs.com/kaituorensheng/p/3826114.htmlhttps://blog.csdn.net/wangato/article/details/70173682hadoop集群框架搭建完了,试了几次很稳定,但是这只是第一步,编程才是重要的,另外,虽然hadoop的教程大多数都是用java编写也很清晰,但是对我来说最大的问题就是:我不会...

2018-04-03 13:40:34 1528

原创 hadoop yarn的原理和工作流程

之前写过 mapreduce的原理和工作流程,包括了一小部分yarn的内容,因为yarn本来就是从mrv1中提出来的,所以二者有千丝万缕的联系,另外,作为一个新手也在梳理的阶段,所以记录的内容或多或少会有混乱或者不精准,还请大家包涵。结构如下:先简要介绍一下mrv1中的资源管理,然后概述yarn。一,mrv1    这个阶段资源管理和计算都是由mapreduce独自完成。    执行阶段包括:ma...

2018-04-03 08:52:14 1729

原创 Hadoop HDFS命令

参考书籍:Hadoop+Spark大数据巨量分析与机器学习整合开发实战(第六章)(再次吐槽,书中所说的配套博客居然不存在.....http://blog.sina.com.cn/hadoopsparkbook)启动节点:start-all.sh创建目录:hadoop fs -mkdir /userhadoop fs -mkdir /user/hduser多级目录:hadoop fs -mkdir ...

2018-04-02 13:19:25 203

原创 Hadoop集群在使用过程中的问题

经验总结:配置前一定要先配置tmp,否则所有的配置文件存储在(虚拟机)系统的临时文件里,重启后全部丢失,导致必须要reformat namenode  reformat次数多了以后还会导致ID不统一,datanode节点起不来的问题。切记切记。配置完了hadoop集群,将在使用过程中的问题记录在此1:yarn无法启动          书上的配置文件有问题,有一些信息没有配置:换一个就好了(把we...

2018-04-02 11:52:44 160

原创 hadoop集群配置(二,多点)

单点配置成功后尝试在虚拟机上的多点配置。首先把上次搭建的master节点用VMware复制出一个data节点之后对节点的IP等信息进行配置参考书籍:hadoop+spark大数据巨量分析与机器学习  林大贵 ,配套博客:http://blog.sina.com.cn/hadoopsparkbook,不得不说一下,虽说是配套的安装代码,但是格式一团糟,内容甚至和书都不一致,作为一个作者,太不负责了。...

2018-03-30 15:29:38 270

转载 linux ssh免密

https://www.cnblogs.com/leien/p/5375780.htmlhttp://www.ruanyifeng.com/blog/2011/12/ssh_remote_login.html配置hadoop的过程中涉及到ssh免密登陆,但是ssh localhost一直登陆不上去。查了好多资料,越查越杂,终于碰到一个及其简明的流程,搞定,先记录,ssh的工作原理在http://w...

2018-03-30 11:00:00 127

原创 hadoop mapreduce原理和流程

参考:https://blog.csdn.net/thomas0yang/article/details/8562910http://www.sohu.com/a/147016674_487514hadoop有不同版本之分,写这篇文章的时候已经有版本3了,但是主要还是以版本二为主,1 2 的主要不同是在mapreduce部分尤其是资源管理部分由原来的tasktracker  JobTracker转...

2018-03-29 18:09:43 289

原创 hadoop集群配置(一,单点配置)

参考书籍:Hadoop+Speak大数据巨量分析与机器学习整合开发实战。林大贵。不错  单点 集群  机器学习都可以。走一遍hadoop集群配置在一台节点上建立新用户Hadoop      useradd Hadoop   添加密码  passwd  hadoop 更新包:wh@vm0-ubuntu:~$ sudo apt update安装JDK:wh@vm0-ubuntu:~$ sudo apt...

2018-03-28 09:56:14 1243

原创 Linux VIM使用

刚才一直试着用vim打开文件编辑,左边出来一长条~   之后就不会用了,后来查了查  原来压根就没安装VIM 果断: sudo apt install 包名接着试:默认进入的就是normal模式,这个模式下可以移动光标复制粘贴等,但是不能编辑(打字),按a i o r进入编辑模式, 【esc】退出回normal模式,按: 进入末行模式保存退出之类的操作 分两种   1:在normal 模式下:ZZ...

2018-03-27 15:57:46 103

原创 linux(一)

试试Linux    之前试过几次,一来没什么基础,二来windows上好多工作转过来太麻烦重新来一遍    把能接触到的东西都记下来。首先呢,用Linux 得知道什么是Linux,话说......自己找吧,就不放在这了配环境....也不重新配了,以前配过了,VMWARe加上Ubuntu,赔了4个,过一阵搭集群用。万物皆文件,设备是文件,包括硬盘之类得,目录也是文件,文件当然肯定是文件了用户名之类...

2018-03-27 15:14:59 92

翻译 custom estimators

用了pre estimators,不够灵活,便翻译边学习。这篇文档立志于建立一个custom estimator来模仿pre-made estimator DNN。pre-made estima 是tf.estimator.Estimator基类的子类,而custom是它的实例。很多时候,你需要更多的控制权在estimator的表现上,这样的话就需要custom了,你可以创建一个cunstom E...

2018-03-22 11:22:53 217

原创 DataFrame合并

获取特征得时候每个方法能获取到N个特征,本来想着每个方法返回一个Series,其中每行是一个列表然后在出程序合并,但是合并得过程中发现用Series存储列表是字符串的形式,不好用,还是每个特征返回一个Series吧,另外涉及到DataFrame的合并,记录以下:#创建Seriesa = pd.Series([])b = pa.Series([])#创建DataFramec = pd.Dat...

2018-03-21 10:12:35 572

原创 用pd.Series创建多维序列

找了一阵,用Series创建多维列表貌似有点困难,可以先用LIST做,然后转成Seriesfeature_result = []feature_result.append([mean,std,thirdMoment,ForthMoment])feature_result_Series = pd.Series(feature_result)...

2018-03-20 12:50:17 1078

原创 numpy 索引

常用操作:创建:索引:np.argwhere(a == 7)

2018-03-19 23:42:52 239

原创 自适应阈值求边缘

之前一直是不太信任简单的阈值分割的,刚做了个小实验,用自动阈值分割试着分割图像(均值、高斯)和opencv手册上的结果不同,只能显现出边缘。后来想明白了,自动阈值分割以周边区域的(权重)平均值为阈值,在平滑区域,无论是黑还是白阈值和自身都大致相等,都不能有效分割前景背景,只有在边缘区域可以。也就是说,自动阈值分割仅对线型分割有不错的效果...

2018-03-16 08:40:11 910 1

原创 anaconda安装opencv

之前安装过一次,不过是基于whl的,从LFD网站上下载对应版本的whl安装包,然后pip install  最近重新安装了以下anaconda,需要重新安装opencv发现LFD网站打不开了,于是试了一下之前不好用的命令,居然成功了,记下,以备不时支取:pip install opencv-pythonpip install openv-contrib-python...

2018-03-15 09:42:04 3021 1

翻译 tensorflow import data

importing data:  tf.data接口允许建立复杂的数据输入管道,距离在,图像模型的管道也许需要聚合分布在不同文件系统的图片,给每个图片随机干扰,并聚合,随机选取一批图像用于训练,对于文本模型,安德森,这个接口简化了处理大量数据,不同的数据格式,和复杂的转化。   接口引入了两个新的抽象给tensorflow:tf.data.dataset表示一系列的元素,每个元素包含一个或者多个t...

2018-03-13 10:18:44 420

翻译 tensorflow使用教程

趁着最近有点时间,花几天时间把tensorflow教程整理出来(红色表示没有完成)(内容来源,tensorflow google操作手册,英文,链接:https://tensorflow.google.cn/programmers_guide/estimators,需要翻墙)现在的版本是1.6High level apis:estimators是一个高级接口,极大简化了机器学习的编程,它能够实现:...

2018-03-13 07:55:50 463

转载 tensorflow-gpu安装和使用

之前安装过一次,很坎坷,最近看到一篇博客,或许能有用,先记录下来,待验证之后再来说明。原文连接:http://blog.csdn.net/sb19931201/article/details/53648615http://blog.csdn.net/xuefengyang666/article/details/79422012不错,可以使用了,流程按照第一个来,版本搭配按照第二个来,暂时没遇到什么...

2018-03-11 22:29:02 236

原创 git版本库中python程序大量I/O操作越跑越慢的问题

最近做有关图像的实验,涉及到大量的图像生成和写入操作过程中发现程序越跑越慢,每个单位操作时间几乎等差增长,14s,20s,25,30。。。。。跑到一半单位操作已经超过200s,受不了了百度之,发现python的GC有可能耽误程序运行时间,按照相应教程 gc.disable  gc.enable,并没有用百思不得其姐,打开资源管理器,发现git正在消耗大量的CPU,突然发现:程序运行

2017-10-29 16:55:41 1518

原创 pycharm+theano+cuda+anoconda配置NIVIDA并行环境

因为项目都运行在pycharm上,所以第一想法是在pycharm上配置并行环境,下载theano,下载cuda,参考http://blog.csdn.net/m624197265/article/details/45700619http://blog.sina.com.cn/s/blog_87ecc6830102wnh1.html两篇博客,但是安装过程不顺利,主要卡在theano和

2017-10-21 09:26:58 1026 1

原创 怎么开始并且争取做一个优秀的计算机视觉研究人员

研究生一年级结束才开始想这个问题,早肯定算不上了,但还不晚,毕竟很多学生直到毕业也不清楚。这篇博客会不断的更新和总结,对自己的研究之路做一个梳理。怎么开始进行计算机视觉研究呢,计算机视觉是一个非常庞大的领域,没有精力也不需要精通所有方向,但是还是要对领域有一个大致的了解,但无论是捧着一本书看还是看论文都有其固有缺点:知识零散,不全面。因此我觉得可以利用已有资源:著名博客,著名期刊,会议,还有很

2017-10-12 10:01:44 315

原创 基于python的web开发(一)——TCP/IP

作为一个新人,从最基础的开始学习,记录。基础概念包括主机、线路、交换、路由、调制解调器等,提供服务的叫服务器,获取有用信息的叫做客户端一,TCP/IP网络1.网络分层:TCP/IP将网络分4层: 应用层、传输层、网络层、接口层(处理物理细节)应用层协议:HTTP SMTP 等传输层: TCP UDP网络层: IP接口层:通信行业接触更多一些2.网络设备:集线

2017-09-07 20:23:50 465

原创 tensorflow的简单使用、保存、加载

机器学习框架用到tensorflow,在此试着总结简单的使用方法:包括存储训练好的模型以及加载相应模型。学习的内容主要是由极客学院(http://wiki.jikexueyuan.com/project/tensorflow-zh/tutorials/overview.html)翻译的tensorflow官方文档中文版,但是有个问题,tensorflow发布一年的时间里,有些使用办法已经发生变

2017-06-24 16:51:15 706

原创 python语言的GUI工具——pyqt

手头的小程序需要做个GUI,查了资料,最初选用的是tkinter,作为python官方整合的GUI库,具有易于使用,轻便等优点。但是在接触相关信息越来越多,以及身边人的建议下改用pyqt,坑少,做出的界面更漂亮,更关键的是,可以用GUI的形式做GUI,这对于接触计算机行业不过一年的我来说,真的是方便,高效至极。暂顾不得网友所说的qt精髓的事情,能够解决问题才是王道。下面就纪录一下相关过程。一:

2017-06-24 14:17:20 978

原创 tkinter

再过几个小时NBA总决赛就要开始了,有点失眠,睡不着,写篇博客吧 随着学习的深入以及所做工作的需求,需要了解并掌握python语言的GUI编写方法,而以“人生苦短我用python”作为格言的它有着各种各样的第三方包,比如tix,pmw wxwidgets wxpython pyqt tkinter等等。作为一个入行尚浅的小学生来说,用什么包都感觉陌生,经过简单的了解,决定使用tkint

2017-06-02 00:36:47 590

原创 windows环境下的git服务器搭建——gitblit(2)

之前写过一篇搭建gitblit的博客,介绍了整个过程,今天将操作过程以及权限分配做详细记录。此片博客为基础版操作手册,能够让小团队尽快用起来,而进阶版会在接下来的学习和使用过程中不断完善,并在新博客中进行分享。一,准备工作1,因为需要在本地进行项目代码的编辑,所以需要在本地安装好git,请自行到官网安装相应的版本即可2,在本地选择一路径创建文件夹,以存放项目版本库。(例在D盘根目录下建

2017-05-17 11:40:03 634

原创 用远程桌面访问服务器server2012

最近接手实验室服务器,最初应该学会的就是如何访问,经过一番理解,服务器就是和PC差不多的东西,只不过PC机的主机和显示器通常放在一起,而服务器需要远程去访问,那么如何用自己的显示器显示服务器中的内容呢?——远程访问可用两种办法,一种是可以直接安装Teamviewer,一种类似于QQ桌面的东西。另一种是通过windows自带的远程桌面。现记录后一种(win10环境下)。一、打开win

2017-05-09 00:09:01 949

原创 tensorflow报错:for unknown op

在windows下安装好tensorflow1.0.1版本后,测试MINIST数据集出现报错,虽然不影响运行但是有个错误总是不安心经过查询,暂且认定是版本问题,或者与CPU编译的问题有关,自己解决不了不经意找到一篇国外的帖子,也是出了这个问题(看来还是很普遍的),解决办法是能够将报错隐藏,姑且就这么干吧,省得闹心了http://stackoverflow.com/questions/4

2017-05-01 14:35:45 659

原创 pycharm下的多个python版本共存(二)

上一篇博文介绍了在windows下同时安装python2和python3.而在工作的过程中,我习惯于用pycharm作为IDE。本文将记录如何在pycharm中选择python版本,并给相应的版本安装第三方库。选择版本可以在创建项目的时候进行,也可以在设置中进行设置——》打开file/default setting/project interpreter 。在右侧界面的设置图标处单机add l

2017-04-20 19:40:13 14591 2

原创 pycharm下的多个python版本共存(一)

经过一段时间的使用和入门,对python以及相应的IDE,版本,库的概念有了一定的了解,在进行下一步任务之前,决定重新搭建python变成环境,以防后续使用中出现难以解决并且浪费时间的问题,主要内容为:在pycharm下搭建python2,3版本共存的能使用pip的编程环境

2017-04-20 14:22:39 15563

原创 windows环境下的git服务器搭建——gitblit

用以记录windows系统下的git服务器搭建过程之前的搭建过程选择了用SSH的方式,但是出现了很多问题,暂时的能力不足以解决,所以暂时搁置。再老师的一再催促下,找到了另一种方法,能够很好的解决问题——gitblit,作为一个小白而言,能有这样的一个中文图形化的界面真是省了不少时间,和github的风格也有些类似,下面开始用流水账的形式记录环境的配置过程。环境所需软件:gitbli

2017-02-20 20:27:20 1386

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除