2016年05月_sparkexpert

原创中国企业黄页数据的多线程爬虫

企业黄页数据包含一些信息，虽然不怎么用到，但是在做爬取的时候，顺便刚好验证一下多线程爬虫的效果。采用.net来撰写，主要是速度比较快。下载效果如下：爬虫后企业信息按照所属地域进行组织，即每个城市一个文件。当然，这个黄页信息非常简单，就只有企业名称，邮编，电话，地址等。，

2016-05-30 17:19:35 3909 3

原创中国电话区号（CSV）

有时候经常会去找这样的文件，然而都没有现成的。因此将之前的文件在此复制粘贴出来，以备后用，也方便大家。。010,北京_北京020,广东_广州市021,上海_上海022,天津_天津023,重庆_重庆024,辽宁_沈阳市025,江苏_南京市027,湖北_武汉市028,四川_眉山市029,陕西_西安市0310,河北_邯郸市0311,河北_石家庄市

2016-05-29 21:31:31 4363

原创 tableau server　离线加载自定义谷歌地图瓦片

tableau可视化中非常重要的一块就是空间的可视化。然而tableau只要联机就可以自动加载openstreetmap的地图，这对于国内用户而言还是不太方便，同时虽然它也提供了对WMS，MAPBOX等服务的地图加载，然而这两种方式相对还是不方便。因此利用之前下载的谷歌地图瓦片数据，按照一定的金字塔组织放置在TOMCAT中，然后启动该服务，再将这个瓦片的服务器地址及其瓦片规

2016-05-28 22:16:35 8005 2

原创 tableau sdk java的测试

分析下tableau的自带的DLL，从其加载的QT库不难判断，它是采用QT来开发的。因此具有易于移植的作用。看到网上有公开的SDK，于是下载看看，然而却非常失望，其SDK仅仅提供一个数据源的提取和工作空间的发布，然而针对其核心的数据可视化，居然没有外置接口。虽然功能非常有限，还是进行测试。（主要采用JAVA　SDK）来测试。首先按照说明，将其SDK包中的BIN目录，加载到系

2016-05-28 22:11:26 3327

原创 tableau桌面版连接spark sql的测试

Tableau是一款优秀的数据可视化分析软件，这几天安装之后，感觉它不仅可以实现对各种数据的可视化绘制操作，并支持多个视图按照故事进行组织，同时具有强大的数据连接操作。支持各种数据源。当然最强大的肯定还是它的server版，可以实现与desktop版的无缝对接。Tableau支持多种数据源的对接，从其官方文档上可以看出，它几乎支持当前主流的各种工具。Excelon page 1

2016-05-28 22:06:26 4895 2

原创 deeplearning4j中编译lombok配置

在对deeplearning4j进行源码重组编译的时候，发现这个源码中很多地方都写得非常简略，没有GET，SET等这样的属性操作函数。而编译过程中经常会发生报错，究其原因就是没有找到GET或者SET属性的函数。上网一搜，才发现使用了lombok的JAR包的原因。而这个库已经下载了，但是需要进行一定的配置才可以。因此根据网上的配置，果然顺利搞定。

2016-05-15 23:23:05 964

原创 xgboost C++ window编译问题解决与安装

为了比较在不同语言环境下使用xgboost的效果。最近想试一下这个库。实质上spark mlib中的GBT算法一直在使用，在规模超过50万的训练集上进行生成模型，速度就已经相当慢。XGBOOST是一个各个语言的库，有C++版，R，PYTHON版本。于是最近也尝试着去安装一下别的语言版本效果。然而在编译安装的时候也是各种坑。(1) GITH

2016-05-14 22:30:45 3572 2

原创 spark读取多个文件夹(嵌套)下的多个文件

在正常调用过程中，难免需要对多个文件夹下的多个文件进行读取，然而之前只是明确了spark具备读取多个文件的能力。针对多个文件夹下的多个文件，以前的做法是先进行文件夹的遍历，然后再进行各个文件夹目录的读取。今天在做测试的时候，居然发现spark原生就支持这样的能力。原理也非常简单，就是textFile功能。编写这样的代码，读取上次输出的多个结果，由于RDD保存结果

2016-05-05 20:24:34 22133 3

大数据挖掘SparkExpert的博客