sparkexpert-CSDN博客

原创 ERROR 2002 (HY000): Can't connect to local MySQL server　问题解决

由于网络IP重新进行切换，一下子发现之前的HIVE一直连接不上，一步步发现，原来问题在于MYSQL的问题。于是重新进入mysql，mysql -u ** -p，输入密码之后，发现了这个错误。ERROR 2002 (HY000): Can't connect to local MySQL server through socket '/var/run/mysqld/mysqld.

2016-09-12 19:43:03 3377 1

原创基于机器学习的自动问答系统构建

自动问答系统是当前自然语言处理领域一个非常热的方向。它综合运用了知识表示、信息检索、自然语言处理等技术。自动问答系统能够使用户以自然语言提问的形式而不是关键词的组合，提出信息查询需求，系统依据对问题进行分析，从各种数据资源中自动找出准确的答案。从系统功能上讲，自动问答分为开放域自动问答和限定域自动问答。开放域是指不限定问题领域，用户随意提问，系统从海量数据中寻找答案；限定域是指系统事先声明，只能回

2016-09-06 10:24:03 9277 10

原创 Spark 2.0.0正式版编译及问题分析

从上次编译了技术预览版2.0.1之后，官网终于放出了正式版本的2.0.0版本。Spark Release 2.0.0（见http://spark.apache.org/releases/spark-release-2-0-0.html）Apache Spark 2.0.0 is the first release on the 2.x line. The major

2016-08-31 22:04:32 1452

原创 Ubuntu上打开windows共享文件夹进行读写操作的命令

有时候经常会用到在不同系统之间进行文件的拷贝和传输，其中不同操作系统之间传输数据还是有些不便的，当然总是可以实现的。今天在找这个命令的时候花了点时间，于是就将这个过程简单记录下来。（1）　在win7系统上，首先设置一个共享文件目录，在设置共享的时候，打开可能访问的用户的列表，这些包括系统管理员和匿名访问的用户，在列表中我们选择Everyone，同时设置其权限为（读写），主要

2016-08-29 17:10:34 2607

原创千万级别以上的地图兴趣点（POI）的快速查找测试

近期，终于有点时间，将之前的地图兴趣点爬虫程序（http://blog.csdn.net/sparkexpert/article/details/51554813）完善了下，并用了七天的时间爬取了覆盖全国的任一地区的所有类别的兴趣点数据。数据下载还是一个艰难的过程，不过幸运的是，采用了新方法之后，基本上很少需要人工去干预，当然也会有网络的限制，但是基本上同时开辟5个下载通道，速度一直是

2016-08-23 11:32:55 11571 2

原创 OCR汉字识别的测试

最近一直在做信息提取，其中碰到图片中文字提取的模块，这里面还真的水也很深。当然文字的定位提取是关键一步，但是更重要的还是后面直接输出文字模块。目前开源的tesseract，虽然已经取得了比较大的进步，但是经过今天测试，发现还需要有更大的提取。以目前的tesseract3.04版本，其测试结果如下：不过，简单了看了下这个开源架构，总体上可读性很强，也有很多封装接口。如针对C#

2016-08-19 23:43:57 2202

原创 spark 2.0.1（技术预览版）的编译与测试（附一些新特性的介绍）

spark 2.0的预览版在前几个月已经吵得沸沸扬扬，趁着今天一起编译了下这个版本，还是非常方便的。这回采用MVN来进行编译，具体见官网的编译帮助。Building with build/mvnSpark now comes packaged with a self-contained Maven installation to ease building an

2016-07-18 16:21:08 1541

原创 Waiting for lock on */.ivy2/.sbt.ivy.lock to be available问题的解决

在进行SBT编译过程中，经常会碰到这样的问题。。。Waiting for lock on */.ivy2/.sbt.ivy.lock to be availableWaiting for lock on */.sbt/boot/sbt.boot.lock to be available...针对这种问题，其原因是同时开启了多个终端进行SBT的编译，才导致

2016-07-18 15:58:43 15436

原创 Hbase的后缀过滤查询

HBase原生自带了对RowKey的很多种查询策略。通过这个过滤器可以在HBase中的数据的多个维度（行，列，数据版本）上进行对数据的筛选操作，也就是说过滤器最终能够筛选的数据能够细化到具体的一个存储单元格上（由行键，列明，时间戳定位）。其API中提供的Filter大致如下：CompareFilter是高层的抽象类，下面我们将看到他的实现类和实现类代表的各种过滤条件

2016-07-18 15:31:04 9030

原创太多的.hive-stagingxxx文件的处理

跑一段时间的HIVE程序之后，偶尔打开对应的HDFS文件夹，才发现在其目录下，产生了太多的.hive-staging_hive_date-time_ XXX文件。仔细一看，才发现几乎每个HIVE的查询语句都会产生这样的一个文件，这种文件会随着时间积累不断增加。这也是前段时间造成HDFS目录到项的原因之一。查了网上的相关说明，也没有比较好的说明，可能这是基于任何一

2016-07-15 16:34:53 7431

原创 ubuntu远程访问win7登录后语言为繁体字的解决办法

用ubuntu远程访问win7后，发现登录后语言为繁体字，这个还是比较烦人的，网上找到了一个解决办法，在此记录一下。以后肯定还会再用到。在win7电脑上进行修改一下注册表：在终端服务器上单击开始、单击运行、键入 regedit，然后单击确定。找到并单击以下注册表子项：HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet

2016-07-14 11:40:38 707

原创 the directory item limit is exceed: limit=1048576问题的解决

当spark流式数据分析处理跑了一段时间之后，突然会出现报错，如下：意思就是目录超过了HDFS的文件个数限制。然而这个问题网上真的不太好找，在定位一番之后，终于明确就是HDFS本身的容量限制问题，而这个正常在配置里面是没有的，只有新增加一行配置才能生效，否则就是按照默认的1048576来处理。 dfs.namenode.fs-limits.

2016-07-07 17:29:56 5514

原创 C＃ webbrowser爬虫中经常碰到的脚本错误弹出窗口的问题解决

在爬虫过程中，经常会碰到脚本错误的提示窗口。网上有关于这个错误的好多解决办法。后来终于测试成功。其实现如下：　　　//## 这边把脚本错误的压制设置为true. this.webBrowser1.ScriptErrorsSuppressed = true; this.webBrowser1.Docu

2016-07-05 23:04:11 3871 1

原创 Spark Hbase读取操作的一些总结与测试

Spark连接HBase实现查询的操作有好多种步骤，其中常用的是直接调用Hbase本身提供的写入和读出的接口。然而不少人在此基础上进行了各种封装，有的支持spark sql on Hbase，著名如华为开源的astro，但是这个也非常有局限性，其仅支持spark 1.4.0，其中的源码已经远远无法适应1.6.0以上的版本。另一种思路是实现Hbase作为Spark的一种数据源

2016-06-28 20:54:57 5349 1

原创 org/apache/hadoop/hbase/CompatibilityFactory(scan)没有找到类的解决办法

在做spark连接Hbase的时候，总会蹦出一些问题。总结起来就是各种类的找不到。如：org/apache/hadoop/hbase/CompatibilityFactory没有找到类，　　E xception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/

2016-06-28 20:49:53 3636

原创 Spark写入HBase长时间没有反应的问题解决(子节点没有HRegionServer)

在测试spark写入到HBase数据库的时候，碰到了卡壳的情况。查看状态，一直停留在connect阶段，跳不过去。。于是只能一步一步查，终于发现当在Master上启动start-hbase的时候，而子节点利用JPS进程，却没有发现HRegionServer的进程存在。于是就查原因，果然是各个服务器的系统时间不一样，导致的。节点机的时间和master的时间差距大于30000m

2016-06-24 08:45:02 2077

原创 Cassandra 3.7.0集群在ubuntu上的安装

最近想着测试各种NOSQL数据库的性能，于是把cassandra也装一下试验一下性能。Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发，用于储存收件箱等简单格式数据，集GoogleBigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身Facebook于2008将 Cassandra 开源，此后，由于Cassandra良好的

2016-06-23 17:12:22 1863

原创 OpenCV在Python上的调用( import cv2的解决办法)

OpenCV是一个图像处理的经典库，而且关键是一直在升级。为了在Python中调用opencv，特别是看到好多代码都是import cv2，而这个在python中是无法直接进行pip install安装的。查了下，才知道需要从opencv库中进行拷贝，具体操作如下：将Opencv安装目录下opencv\build\python\2.7\x86中的cv2.py

2016-06-22 21:07:47 94931 16

原创 G2P(单词到音素)的深度学习训练测试

音素提取是语音识别中的一块重要内容。G2P（Grapheme-to-Phoneme），英文意思是字素到音素，使用循环神经网络(recurrent neural network,RNN) 和LSTM( long short-termmemory units)，来实现从英文单词到音素的转化。LSTM序列到序列模型(LSTM sequence-to-sequencemodel)已经被成功

2016-06-22 11:09:11 17397 1

原创电话信用标记数据的爬虫

一直以来，相信很多人会接到许多诈骗电话的。因此也催生了一些电话标记软件。最近在分析一些数据的过程中，需要寻找这些标记数据，才发现是没有办法下载到的。想想只能靠爬虫了。偶然的机会，发现一些地方还是有接口。。分析了百度，360，腾讯这些手机终端卫士软件的数据结果，发现360的效果是比较好的。可能是用户基数相对较多吧。而百度因为是做爬虫起家的，其数据中还能出现触宝或者

2016-06-02 11:30:46 2029 2

原创地图POI(兴趣点)数据的爬虫(突破限制)

当前很多网站都提供了POI的下载界面，但是一般都需要KEY来实现。然而每个KEY(正常是个人请求的)一般每天配额度也就1000条，这对于想要大量POI数据的需求获取而言，简直是杯水车薪。鉴于最近想分析一下POI数据，所以对POI的爬虫也比较感兴趣，刚好看了下，有些网站还是有漏洞的，于是正好趁着下载了一把，当然还是会有限制，不过每天只要想下，还是能够达到好几万条的。程序爬虫的

2016-06-01 11:49:41 21559 5

原创中国企业黄页数据的多线程爬虫

企业黄页数据包含一些信息，虽然不怎么用到，但是在做爬取的时候，顺便刚好验证一下多线程爬虫的效果。采用.net来撰写，主要是速度比较快。下载效果如下：爬虫后企业信息按照所属地域进行组织，即每个城市一个文件。当然，这个黄页信息非常简单，就只有企业名称，邮编，电话，地址等。，

2016-05-30 17:19:35 3909 3

原创中国电话区号（CSV）

有时候经常会去找这样的文件，然而都没有现成的。因此将之前的文件在此复制粘贴出来，以备后用，也方便大家。。010,北京_北京020,广东_广州市021,上海_上海022,天津_天津023,重庆_重庆024,辽宁_沈阳市025,江苏_南京市027,湖北_武汉市028,四川_眉山市029,陕西_西安市0310,河北_邯郸市0311,河北_石家庄市

2016-05-29 21:31:31 4362

原创 tableau server　离线加载自定义谷歌地图瓦片

tableau可视化中非常重要的一块就是空间的可视化。然而tableau只要联机就可以自动加载openstreetmap的地图，这对于国内用户而言还是不太方便，同时虽然它也提供了对WMS，MAPBOX等服务的地图加载，然而这两种方式相对还是不方便。因此利用之前下载的谷歌地图瓦片数据，按照一定的金字塔组织放置在TOMCAT中，然后启动该服务，再将这个瓦片的服务器地址及其瓦片规

2016-05-28 22:16:35 8005 2

原创 tableau sdk java的测试

分析下tableau的自带的DLL，从其加载的QT库不难判断，它是采用QT来开发的。因此具有易于移植的作用。看到网上有公开的SDK，于是下载看看，然而却非常失望，其SDK仅仅提供一个数据源的提取和工作空间的发布，然而针对其核心的数据可视化，居然没有外置接口。虽然功能非常有限，还是进行测试。（主要采用JAVA　SDK）来测试。首先按照说明，将其SDK包中的BIN目录，加载到系

2016-05-28 22:11:26 3327

原创 tableau桌面版连接spark sql的测试

Tableau是一款优秀的数据可视化分析软件，这几天安装之后，感觉它不仅可以实现对各种数据的可视化绘制操作，并支持多个视图按照故事进行组织，同时具有强大的数据连接操作。支持各种数据源。当然最强大的肯定还是它的server版，可以实现与desktop版的无缝对接。Tableau支持多种数据源的对接，从其官方文档上可以看出，它几乎支持当前主流的各种工具。Excelon page 1

2016-05-28 22:06:26 4895 2

原创 deeplearning4j中编译lombok配置

在对deeplearning4j进行源码重组编译的时候，发现这个源码中很多地方都写得非常简略，没有GET，SET等这样的属性操作函数。而编译过程中经常会发生报错，究其原因就是没有找到GET或者SET属性的函数。上网一搜，才发现使用了lombok的JAR包的原因。而这个库已经下载了，但是需要进行一定的配置才可以。因此根据网上的配置，果然顺利搞定。

2016-05-15 23:23:05 964

原创 xgboost C++ window编译问题解决与安装

为了比较在不同语言环境下使用xgboost的效果。最近想试一下这个库。实质上spark mlib中的GBT算法一直在使用，在规模超过50万的训练集上进行生成模型，速度就已经相当慢。XGBOOST是一个各个语言的库，有C++版，R，PYTHON版本。于是最近也尝试着去安装一下别的语言版本效果。然而在编译安装的时候也是各种坑。(1) GITH

2016-05-14 22:30:45 3571 2

原创 spark读取多个文件夹(嵌套)下的多个文件

在正常调用过程中，难免需要对多个文件夹下的多个文件进行读取，然而之前只是明确了spark具备读取多个文件的能力。针对多个文件夹下的多个文件，以前的做法是先进行文件夹的遍历，然后再进行各个文件夹目录的读取。今天在做测试的时候，居然发现spark原生就支持这样的能力。原理也非常简单，就是textFile功能。编写这样的代码，读取上次输出的多个结果，由于RDD保存结果

2016-05-05 20:24:34 22133 3

原创 Redis键时间老化的测试

在使用Redis数据库的时候，临时有一些数据更新的问题，于是进行查找，发现Redis本身自带有键值随时间更新老化的功能。还是非常强大的。一个expire命令走天下！最后整理一下Redis常见的命令：2、适合全体类型的命令EXISTS(key) 确认一个 key 是否存在；DEL(key) 删除一个 key；TYPE(key) 返回值的类型

2016-04-25 10:07:54 1831

原创 DataFrame registerTempTable(注册临时表)后Table Not Found问题的解决

将数据存成数据集的方式是实现数据各种操作非常有效的一种方式。也能够迅速实现数据的导入与导出。Spark DataFrame提供了registerTempTable这样的接口，可以将数据对象存成临时表，便于后续的各种查询操作等。如select, join等。以前都是直接从数据中读入数据，生成一个dataframe对象，都没有遇到 table not found的问题。然而今天

2016-04-21 10:29:11 20028 3

原创 Redis中文乱码问题的解决

在Redis结果查看时，突然发现显示的乱码。如图所示：不过看到这种格式，特别的规范，应该是显示格式的问题。按照网上说法：redis-cli.exe --raw。在CMD控制台上输入上述命令，结果出来又是乱码。最后检查redisclient的源码，才发现其有encoding参数，将它设置为中文显示，果然成功了。因此不得不进行整个库的全部删除。利

2016-04-16 11:16:57 32738 7

原创 C#进行Redis操作

由于一些程序是用.net来写的，刚好要访问以前的redis库，于是就找一些redis的.net客户端。在redis主页上，提供了好多个利用.net封装redis的库：csredis Async (and sync) client for Redis and SentinelNhiredis

2016-04-16 10:37:08 5158

原创 Hive 插入数据时遇到Return Code 2问题的解决

正常情况下，估计很难遇到这个问题。但是也刚好都碰上了这样的问题。于是把解决过程记录一下。Hive运行成功之后，当输入select count(*) from XX或者插入数据时，居然碰到BUG。2016-04-14 12:31:56,199 Stage-1 map = 0%, reduce = 0%Ended Job = job_1460599682683_0

2016-04-15 08:20:06 15873 2

原创 Hive中文注释乱码问题的解决

在HIVE中建表的时候，有时候难免要表中文注释，然而如果不经过配置，会导致desc某个表名的时候，直接以？的方式返回。因此也来解决一下HIVE中文注释乱码的问题。由于HIVE的元数据是存在于MYSQL上的，因此需要在MYSQL上进行元数据的候。因此也来解决一下这个问题。当hive使用mysql作为元数据库的时候mysql的字符集要设置成latin1 defaul

2016-04-15 08:13:55 8346

原创基于WEKA实现时间序列的预测

时间序列预测是根据客观事物发展的规律性，运用历史数据来推测未来的发展趋势。时序预测是一项应用非常广的技术，如股票预测，天气预测等。然而时序预测也是一项比较难的地方，主要是短期预测可能还比较准，而对一段时间的预测则会比较难。在学习时序预测过程中，先看了WEKA的功能。WEKA本身是不带这功能的，不过还好，WEKA方面倒是这样的分析插件，运行一下，里面提供的界面还是

2016-04-07 23:02:16 9742 2

原创 spark-submit动态提交的办法（SparkLauncher实战）

spark程序编译完成后，一般都要传送到spark-submit进行调用。然而为了使程序更加易于集成，需要spark-submit能够动态化SparkLauncher是spark提供的外部调用的接口。Package org.apache.spark.launcher DescriptionLibrary for launching Spark applica

2016-04-02 22:14:07 9515 7

原创 spark dataframe操作集锦（提取前几行，合并，入库等）

spark dataframe派生于RDD类，但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。在实际工作中会遇到这样的情况，主要是会进行两个数据集的筛选、合并，重新入库。首先加载数据集，然后在提取数据集的前几行过程中，才找到limit的函数。而合并就用到union函数，重新入库，就是registerTemple注册成表，再进行写入到HIVE中。

2016-04-02 10:52:38 92010 1

原创 spark访问redis集群中某个数据库的问题

正常redis是没有数据库的概念的，但是当redis变成集群的时候，它是可以设置数据库的。（其实也就是开辟一块索引）但是以前接触的spark用rediscontext的方式，只能设置IP和端口号。只能在网上找相关资料。才发现之前找的库已经更新了。里面就提供了这样的参数。（https://github.com/RedisLabs/spark-redis）在该网址中

2016-04-01 22:15:15 3511

原创 Could not connect to Redis No route to host问题解决

最近一台电脑突然系统崩溃了，想做个新增节点的实验。由于之前装的都是ubuntu操作系统，于是想选个异构的REDHAT试试。在试验第一步，装了个REDIS进行看看，才发现远程无法访问，以前由于都装了有SSH，能轻松访问。而这回出现的错误是：Could not connect to Redis at 192.168.2.195:6379: No route to host这个问

2016-04-01 22:03:29 39650 1

空空如也

空空如也