自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据挖掘SparkExpert的博客

大数据智能相关理论、技术与工具的学习、理解和精通掌握过程集合

  • 博客(8)
  • 收藏
  • 关注

原创 Spark Hbase读取操作的一些总结与测试

Spark连接HBase实现查询的操作有好多种步骤,其中常用的是直接调用Hbase本身提供的写入和读出的接口。然而不少人在此基础上进行了各种封装,有的支持spark sql on Hbase,著名如华为开源的astro,但是这个也非常有局限性,其仅支持spark 1.4.0,其中的源码已经远远无法适应1.6.0以上的版本。另一种思路是实现Hbase作为Spark的一种数据源

2016-06-28 20:54:57 5349 1

原创 org/apache/hadoop/hbase/CompatibilityFactory(scan)没有找到类的解决办法

在做spark连接Hbase的时候,总会蹦出一些问题。总结起来就是各种类的找不到。如:org/apache/hadoop/hbase/CompatibilityFactory没有找到类,  E xception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/

2016-06-28 20:49:53 3636

原创 Spark写入HBase长时间没有反应的问题解决(子节点没有HRegionServer)

在测试spark写入到HBase数据库的时候,碰到了卡壳的情况。查看状态,一直停留在connect阶段,跳不过去。。于是只能一步一步查,终于发现当在Master上启动start-hbase的时候,而子节点利用JPS进程,却没有发现HRegionServer的进程存在。于是就查原因,果然是各个服务器的系统时间不一样,导致的。节点机的时间和master的时间差距大于30000m

2016-06-24 08:45:02 2077

原创 Cassandra 3.7.0集群在ubuntu上的安装

最近想着测试各种NOSQL数据库的性能,于是把cassandra也装一下试验一下性能。Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存收件箱等简单格式数据,集GoogleBigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身Facebook于2008将 Cassandra 开源,此后,由于Cassandra良好的

2016-06-23 17:12:22 1863

原创 OpenCV在Python上的调用( import cv2的解决办法)

OpenCV是一个图像处理的经典库,而且关键是一直在升级。为了在Python中调用opencv,特别是看到好多代码都是import cv2,而这个在python中是无法直接进行pip install安装的。查了下,才知道需要从opencv库中进行拷贝,具体操作如下:将Opencv安装目录下opencv\build\python\2.7\x86中的cv2.py

2016-06-22 21:07:47 94929 16

原创 G2P(单词到音素)的深度学习训练测试

音素提取是语音识别中的一块重要内容。G2P(Grapheme-to-Phoneme),英文意思是字素到音素,使用循环神经网络(recurrent neural network,RNN) 和LSTM( long short-termmemory units),来实现从英文单词到音素的转化。LSTM序列到序列模型(LSTM sequence-to-sequencemodel)已经被成功

2016-06-22 11:09:11 17392 1

原创 电话信用标记数据的爬虫

一直以来,相信很多人会接到许多诈骗电话的。因此也催生了一些电话标记软件。最近在分析一些数据的过程中,需要寻找这些标记数据,才发现是没有办法下载到的。想想只能靠爬虫了。偶然的机会,发现一些地方还是有接口。。分析了百度,360,腾讯这些手机终端卫士软件的数据结果,发现360的效果是比较好的。可能是用户基数相对较多吧。而百度因为是做爬虫起家的,其数据中还能出现触宝或者

2016-06-02 11:30:46 2029 2

原创 地图POI(兴趣点)数据的爬虫(突破限制)

当前很多网站都提供了POI的下载界面,但是一般都需要KEY来实现。然而每个KEY(正常是个人请求的)一般每天配额度也就1000条,这对于想要大量POI数据的需求获取而言,简直是杯水车薪。鉴于最近想分析一下POI数据,所以对POI的爬虫也比较感兴趣,刚好看了下,有些网站还是有漏洞的,于是正好趁着下载了一把,当然还是会有限制,不过每天只要想下,还是能够达到好几万条的。程序爬虫的

2016-06-01 11:49:41 21557 5

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除