2016年06月_sparkexpert

原创 Spark Hbase读取操作的一些总结与测试

Spark连接HBase实现查询的操作有好多种步骤，其中常用的是直接调用Hbase本身提供的写入和读出的接口。然而不少人在此基础上进行了各种封装，有的支持spark sql on Hbase，著名如华为开源的astro，但是这个也非常有局限性，其仅支持spark 1.4.0，其中的源码已经远远无法适应1.6.0以上的版本。另一种思路是实现Hbase作为Spark的一种数据源

2016-06-28 20:54:57 5349 1

原创 org/apache/hadoop/hbase/CompatibilityFactory(scan)没有找到类的解决办法

在做spark连接Hbase的时候，总会蹦出一些问题。总结起来就是各种类的找不到。如：org/apache/hadoop/hbase/CompatibilityFactory没有找到类，　　E xception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/

2016-06-28 20:49:53 3636

原创 Spark写入HBase长时间没有反应的问题解决(子节点没有HRegionServer)

在测试spark写入到HBase数据库的时候，碰到了卡壳的情况。查看状态，一直停留在connect阶段，跳不过去。。于是只能一步一步查，终于发现当在Master上启动start-hbase的时候，而子节点利用JPS进程，却没有发现HRegionServer的进程存在。于是就查原因，果然是各个服务器的系统时间不一样，导致的。节点机的时间和master的时间差距大于30000m

2016-06-24 08:45:02 2077

原创 Cassandra 3.7.0集群在ubuntu上的安装

最近想着测试各种NOSQL数据库的性能，于是把cassandra也装一下试验一下性能。Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发，用于储存收件箱等简单格式数据，集GoogleBigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身Facebook于2008将 Cassandra 开源，此后，由于Cassandra良好的

2016-06-23 17:12:22 1863

原创 OpenCV在Python上的调用( import cv2的解决办法)

OpenCV是一个图像处理的经典库，而且关键是一直在升级。为了在Python中调用opencv，特别是看到好多代码都是import cv2，而这个在python中是无法直接进行pip install安装的。查了下，才知道需要从opencv库中进行拷贝，具体操作如下：将Opencv安装目录下opencv\build\python\2.7\x86中的cv2.py

2016-06-22 21:07:47 94929 16

原创 G2P(单词到音素)的深度学习训练测试

音素提取是语音识别中的一块重要内容。G2P（Grapheme-to-Phoneme），英文意思是字素到音素，使用循环神经网络(recurrent neural network,RNN) 和LSTM( long short-termmemory units)，来实现从英文单词到音素的转化。LSTM序列到序列模型(LSTM sequence-to-sequencemodel)已经被成功

2016-06-22 11:09:11 17392 1

原创电话信用标记数据的爬虫

一直以来，相信很多人会接到许多诈骗电话的。因此也催生了一些电话标记软件。最近在分析一些数据的过程中，需要寻找这些标记数据，才发现是没有办法下载到的。想想只能靠爬虫了。偶然的机会，发现一些地方还是有接口。。分析了百度，360，腾讯这些手机终端卫士软件的数据结果，发现360的效果是比较好的。可能是用户基数相对较多吧。而百度因为是做爬虫起家的，其数据中还能出现触宝或者

2016-06-02 11:30:46 2029 2

原创地图POI(兴趣点)数据的爬虫(突破限制)

当前很多网站都提供了POI的下载界面，但是一般都需要KEY来实现。然而每个KEY(正常是个人请求的)一般每天配额度也就1000条，这对于想要大量POI数据的需求获取而言，简直是杯水车薪。鉴于最近想分析一下POI数据，所以对POI的爬虫也比较感兴趣，刚好看了下，有些网站还是有漏洞的，于是正好趁着下载了一把，当然还是会有限制，不过每天只要想下，还是能够达到好几万条的。程序爬虫的

2016-06-01 11:49:41 21557 5

大数据挖掘SparkExpert的博客