自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据挖掘SparkExpert的博客

大数据智能相关理论、技术与工具的学习、理解和精通掌握过程集合

  • 博客(8)
  • 收藏
  • 关注

原创 中国企业黄页数据的多线程爬虫

企业黄页数据包含一些信息,虽然不怎么用到,但是在做爬取的时候,顺便刚好验证一下多线程爬虫的效果。采用.net来撰写,主要是速度比较快。下载效果如下:爬虫后企业信息按照所属地域进行组织,即每个城市一个文件。当然,这个黄页信息非常简单,就只有企业名称,邮编,电话,地址等。,

2016-05-30 17:19:35 3909 3

原创 中国电话区号(CSV)

有时候经常会去找这样的文件,然而都没有现成的。因此将之前的文件在此复制粘贴出来,以备后用,也方便大家。。010,北京_北京020,广东_广州市021,上海_上海022,天津_天津023,重庆_重庆024,辽宁_沈阳市025,江苏_南京市027,湖北_武汉市028,四川_眉山市029,陕西_西安市0310,河北_邯郸市0311,河北_石家庄市

2016-05-29 21:31:31 4363

原创 tableau server 离线加载自定义谷歌地图瓦片

tableau可视化中非常重要的一块就是空间的可视化。然而tableau只要联机就可以自动加载openstreetmap的地图,这对于国内用户而言还是不太方便,同时虽然它也提供了对WMS,MAPBOX等服务的地图加载,然而这两种方式相对还是不方便。因此利用之前下载的谷歌地图瓦片数据,按照一定的金字塔组织放置在TOMCAT中,然后启动该服务,再将这个瓦片的服务器地址及其瓦片规

2016-05-28 22:16:35 8005 2

原创 tableau sdk java的测试

分析下tableau的自带的DLL,从其加载的QT库不难判断,它是采用QT来开发的。因此具有易于移植的作用。看到网上有公开的SDK,于是下载看看,然而却非常失望,其SDK仅仅提供一个数据源的提取和工作空间的发布,然而针对其核心的数据可视化,居然没有外置接口。虽然功能非常有限,还是进行测试。(主要采用JAVA SDK)来测试。首先按照说明,将其SDK包中的BIN目录,加载到系

2016-05-28 22:11:26 3327

原创 tableau桌面版连接spark sql的测试

Tableau是一款优秀的数据可视化分析软件,这几天安装之后,感觉它不仅可以实现对各种数据的可视化绘制操作,并支持多个视图按照故事进行组织,同时具有强大的数据连接操作。支持各种数据源。当然最强大的肯定还是它的server版,可以实现与desktop版的无缝对接。Tableau支持多种数据源的对接,从其官方文档上可以看出,它几乎支持当前主流的各种工具。Excelon page 1

2016-05-28 22:06:26 4895 2

原创 deeplearning4j中编译lombok配置

在对deeplearning4j进行源码重组编译的时候,发现这个源码中很多地方都写得非常简略,没有GET,SET等这样的属性操作函数。而编译过程中经常会发生报错,究其原因就是没有找到GET或者SET属性的函数。上网一搜,才发现使用了lombok的JAR包的原因。而这个库已经下载了,但是需要进行一定的配置才可以。因此根据网上的配置,果然顺利搞定。

2016-05-15 23:23:05 964

原创 xgboost C++ window编译问题解决与安装

为了比较在不同语言环境下使用xgboost的效果。最近想试一下这个库。实质上spark mlib中的GBT算法一直在使用,在规模超过50万的训练集上进行生成模型,速度就已经相当慢。XGBOOST是一个各个语言的库,有C++版,R,PYTHON版本。于是最近也尝试着去安装一下别的语言版本效果。然而在编译安装的时候也是各种坑。(1) GITH

2016-05-14 22:30:45 3572 2

原创 spark读取多个文件夹(嵌套)下的多个文件

在正常调用过程中,难免需要对多个文件夹下的多个文件进行读取,然而之前只是明确了spark具备读取多个文件的能力。针对多个文件夹下的多个文件,以前的做法是先进行文件夹的遍历,然后再进行各个文件夹目录的读取。今天在做测试的时候,居然发现spark原生就支持这样的能力。原理也非常简单,就是textFile功能。编写这样的代码,读取上次输出的多个结果,由于RDD保存结果

2016-05-05 20:24:34 22133 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除