infovisthinker的专栏

技术杂谈,喜欢数据分析,特别是文本分析。信息可视化科普。

Windows7上安装TensorFlow的GPU版本后记

上一篇写了之前在我的Windows7上安装TensorFlow GPU版的一路坑坑洼洼,本以为已经解决了。但实际上在过年的几天内,又一次出现了问题。经过了反复的尝试,到今天为止终于稳定下来,特此记录一下。但是具体原因还是不十分清楚。 上一篇写到用CUDA自带的安装包里的390.60版显卡驱动程序完...

2017-02-14 11:20:39

阅读数:4653

评论数:14

再写博文,回顾在Windows7上安装TensorFlow-GPU的一路坑

离完成上一篇文章有近1年了。2016年发生了太多的事情,从而没能坚持哪怕是每月一篇这样的频率。终于在2017年的1月份抽出几天搞出了一些东西。一路坑洼,赶紧记录下来。 2016年初就开始看深度学习的东西,主攻TensorFlow。但是一路项目再加上换了公司,每次都是搞两天就停一阵子,然后再拾起来重...

2017-01-24 13:53:14

阅读数:12330

评论数:8

自己的CSDN博文阅读量简单分析(至2016年1月)

早就计划了这个题目。写博有近一年了,零零散散的写了一共15篇。期间也一直关注自己的文章被多少人看了一眼,真看还是假看就没法知道了,阅读量也终于达到了1000。发现还是有些有趣的事情可以简单分析一下,也顺便练练手。

2016-02-03 14:23:17

阅读数:2113

评论数:2

如何在RedHat里面编译R源码并安装

为了使用SparkR,决定要在Spark所在的Linux上装上R,结果血泪篇了。随着spark 1.4之后SparkR的流行,估计会有不少人需要这个东西。 主要原因是公司内部的虚机,无法连外网,所以网上很多的直接rpm或者yum的方法都没用,需要自己编译R的源码,中间因为Redhat Ente...

2016-01-06 22:17:06

阅读数:500

评论数:0

初学者入门-用Spark ML来处理超大数据

还是转译KDNuggets的文章。微软的Dmitry Petrov介绍的如何用Spark ML来处理超过内存大小的数据。

2015-12-23 11:42:22

阅读数:3356

评论数:0

一个诡异的spark-submit运行问题(已解决)

今天在测试刚刚部署好的spark集群的时候,碰到了一个诡异的spark-submit问题。搜了一圈也没发现,结果意外的找到了原因,真是欲哭无泪! 问题:写好了一个计算Pi的程序,编译打包成 ComputePi.jar包,放到spark集群的master上,然后用命令 spark-submit ...

2015-12-22 21:32:09

阅读数:4161

评论数:1

hadoop集群的搭建脚本及构思(N):一个简化的Hadoop+Spark on Yarn集群快速搭建

为了一篇正在准备的用spark做文本分析的博文,快速搭建了一个4节点的Spark on Yarn+Hadoop的集群。算是给这个系列的一点简单小结。因为资源的限制,HA的hadoop的集群搭建还要在等一段时间才能来继续了。 由于工作内容变动,有一段时间没有搞环境搭建,这次居然手生了很多,所这里也快...

2015-12-22 21:07:54

阅读数:1222

评论数:0

班门弄斧的写统计-置信区间的自我总结

为了进入数据科学家的行列,大把年纪又重新来看统计的东西。最近在面试和实际工作中发现,经常要去说置信区间的问题。这个统计学里面的一个很常见但是非常基础的概念,不少人(甚至我面的一个Cornell的统计硕士)都完全理解错误。所以这里自己看了不少东西,总结出来留下爪印。 遵循CSDN上牛人的建议,先从W...

2015-12-14 11:22:10

阅读数:1100

评论数:0

用Scala推荐的Eclipse作为IDE开发Spark 1.5.1的程序

为了配合另外一篇文章,自己折腾了一下把在Spark shell里写的程序弄到IDE里面开发。搜了一遍,搞通了,自己写一下笔记,已备后查。 Scala自己推荐的IDE有两个,一个是iDEA,另外一个是Eclipse。iDEA要付费,所以没工夫去买,用Eclipse很久了,就直接上手来搞。基...

2015-11-24 14:05:22

阅读数:2110

评论数:0

RedHat 6上安装运行7zip

为了要配合另外一个博文里介绍的用Spark来处理大文件,去把arXive上的36G的文件down了下来。结果咣当居然是一堆7z文件。实在不想先弄到Windows里面解压,然后再传到Linux上去,就琢磨着Linux怎么能装7zip。搜了一下,发现很简单。就在两个机器上都装了。 一个机器是Ubun...

2015-11-20 12:30:01

阅读数:1791

评论数:0

9个数据科学家必须的技能

为上一篇文章找了一圈SPSS,SAS和开源的R,Python之类的对比,一直没发现。结果找到了这么一个文章,比较的有趣。译过来看看。 需要注意的是,这个是一个商业机构写的针对北美市场的总结,所以难免偏颇,仅供参考。原文链接在最后。 Burtch Works是一个猎头公司。他们总结了对北美对数据...

2015-11-12 12:32:20

阅读数:1038

评论数:0

数据分析工具之战,R 和 Python的PK

上一个项目中需要给客户推荐数据分析工具,目标地位在SPSS、SAS、R和Python这四个工具上。在百度上过了一圈,看不到特别好的帖子。而自己只对SPSS和手写code比较熟,SAS没有接触过,对R和Python的使用和理解和都比较肤浅,所以最后写的对比自己都觉得不是很满意。 今天在KD...

2015-11-10 12:56:10

阅读数:1812

评论数:0

hadoop集群的搭建脚本及构思(二):程序文件的管理思路

安装了几次hadoop系统后终于开始有了一点感觉,对程序文件的管理有了一点想法,这里先记着。等搞完了再仔细地总结一下。 网络上的基本教程都是从0开始,建用户,建目录,拷贝压缩包,然后再解压,再修改配置文件,再修改系统配置文件;然后从一个机器(基本是master node)同步到其他的nodes...

2015-07-08 17:17:57

阅读数:959

评论数:0

hadoop集群的搭建脚本及构思(一):用户和用户权限

打算搞一个复杂的Hadoop 2.6集群,加上Zookeeper来搞HA,再部署上HBase,Hive等一系列的东西。发现机器多了,从建虚机到配置都不能再靠命令行一条一条的敲,需要搞脚本出来自动/半自动执行。 其实想想,这个部署的过程就是一个类似PaaS的任务。完全可以搞成可视化的部署工具。当年搞...

2015-06-16 12:03:38

阅读数:1780

评论数:0

Hadoop 2.6 日志文件和MapReduce的log文件研究心得

学习演练Hadoop 2.6有一段日子了。现在才大致搞清楚了系统里面各个log的位置和功能,在这里总结一下。网上的资料并不丰富,甚至Google出来的结果也不是很满意,或许这个是太简单了,牛人都不屑来写。也可能是各个公司藏着掖着的东西。 Hadoop 2.6包含两个大部分:DFS和Yarn,而...

2015-04-29 18:30:20

阅读数:7094

评论数:0

两个Mapper初始化输出类错误的心得:Unable to initialize any output collector

今天在跑两个关系运算的代码,结果接连两次都出现了同样的一个错误: Error: java.io.IOException: Unable to initialize any output collector at org.apache.hadoop.mapred.MapTask.create...

2015-04-20 17:17:13

阅读数:5544

评论数:1

一个有点意思的问题,如何快速收敛超大的KMeans

被一个牛人问道了这个问题:超亿个节点,进行KMeans的聚类,每次迭代都要进行K×亿的运算,如何能让这个迭代快速的收敛? 当场晕倒,从来没有考虑过这些问题,基础的数据挖据算法不考虑超大级别的运算问题。 回来想了想,再看看Mahout的KMeans的实现方法,觉得可以这么解决. 1. 第...

2015-04-09 13:46:52

阅读数:1825

评论数:1

开博留笔

第一次写博,就是记录一下过去2个星期里安装配置hadoop 2.6.0的一把辛酸血泪史。同时也是深入实践这个大数据基础工具的好例子。 到今天,还有container-lauch报错的问题,google的2天,依然没有解决。先冷一冷。

2015-03-25 08:00:01

阅读数:424

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭