sparkexpert-CSDN博客

原创 google图像新压缩技术RAISR的测试

不久前，Google刚刚发布了一种名为RAISR（Rapid and Accurate Super Image Resolution，意为“快速、精确的超级图像分辨率技术”）的图像压缩技术，旨在保存宝贵的数据，而不牺牲照片质量；并在带宽受限的移动设备上提供清晰锐利的图像。Google声称，该技术可以降低高达75％的带宽，RAISR分析同一图像的低分辨率和高分辨率版本，了解到高分辨率版本

2017-04-26 10:27:27 11408 3

原创 LargeVis可视化技术学习

大图可视化一直是大数据可视化领域的一个关键技术，当前有各种办法，但是今年出来了一个LargeVis的技术，因此对这个技术进行复现和学习一下。前面有很多基础理论，如基本的降维理论，SNE，t-SNE可视化算法等，这些一概略过，想关注理论的可以参考网址：https://bindog.github.io/blog/2016/06/04/from-sne-to-tsne-to-largevis

2017-04-25 11:49:03 8304 6

原创 python3环境下　tensorflow环境中经常遇到'*' has type str, but expected one of: bytes问题的解决

为了对flowers数据集进行训练，于是调用了tensorflow的slim模块中的download_and_convert_flowers.py文件进行处理，但是下载完成之后，执行过程中碰到一个问题：'jpg' has type str, but expected one of: bytes看来tensorflow默认的源码都是基于python2环境下的。

2017-04-18 16:51:00 15062

原创 python3 下 tensorflow slim inceptionV4 问题修正与测试

自从残差网络出来之后，好多人就想着能不能对模型进行结合测试一下。Google Research的Inception模型和Microsoft Research的ResidualNet模型两大图像识别杀器结合效果如何？在这篇2月23日公布在arxiv上的文章“Inception-v4, Inception-ResNet and the Impactof Residual Connections

2017-04-18 16:19:19 3936 1

原创基于tensorflow + Vgg16进行图像分类识别的实验

图像分类识别目前已经得到了很大的飞跃，特别是15年微软提出的resnet已经超越人类，能够对图像中的物体进行更好的识别。为了初步了解一下图像分类识别的过程，学习了一下大牛的主页，发现还是很有意思的。而且从imagenet的角度来说，这个经度还是可以接受的。本实验主要参照了这个网页https://www.cs.toronto.edu/~frossard/post/vgg1

2017-04-17 11:03:30 42955 16

原创基于tensorflow实现图像风格的变换

Leon A. Gatys, Alexander S. Ecker, 和 Matthias Bethge等人的论文“A Neural Algorithm of Artistic Style”开创了图像艺术风格转换的途径，自此之后，利用深度学习相关模型和处理方法，可以实现用计算机代替传世画家的野心。印象派、野兽派、浮世绘、波普、解构主义，曾经艺术风格曾经都是画家脑中不可捉摸的概念。而到了人工

2017-04-15 20:53:56 3986 1

原创 tensorflow 1.01中GAN(生成对抗网络)手写字体生成例子(MINST)的测试

为了更好地掌握GAN的例子，从网上找了段代码进行跑了下，测试了效果。具体过程如下：代码文件如下：import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_dataimport numpy as npfrom skimage.io import imsaveimport o

2017-04-12 21:00:34 13686 9

原创生成对抗网络(GAN)的一些知识整理(课件)

无监督学习是机器学习的未来，而现在GAN的出现，则为无监督学习带来了光明。鉴于GAN的火热，最近将从一些大牛分享资料中截取和整理的资料附图如下：最近测试了一下tensorflow环境下gan的例子。同时

2017-04-12 20:52:21 6121 4

原创 ubuntu环境下 python 3.0以上版本对sqlite3的支持问题

近日，才发现python3.6版本居然不支持sqlite3.这个问题的引起是想实现一下tensorflow下的文本摘要模型的测试。遇到的问题如下：Traceback (most recent call last): File "/home/ndscbigdata/work/python/jdataApp/src/tf/textsum/textsum_data_co

2017-04-10 11:38:03 6017

原创 facebook Faiss的基本使用示例(逐步深入）

针对上一篇文章，安装完毕之后，可以对faiss进行基本的案例学习，具体步骤如下：step1：构造实验数据step2：为向量集构建IndexFlatL2索引，它是最简单的索引类型，只执行强力L2距离搜索step3：进行简单的k-近邻搜索结果如下： NOTE： 1.程序输出为查询向量的最近邻的4个向量的索引

2017-03-31 10:34:19 26591 4

原创 facebook faiss的安装测试

Faiss 是由 Facebook AI Research（FAIR）开发的一个用于有效的相似性搜索（similarity search）和稠密矢量聚类（clustering of dense vectors）的库。它包含了在任何大小的向量集合里进行搜索的算法，向量集合的大小甚至可以达到装不进 RAM。它还包含了用于评估和参数调优的支持代码。Faiss 是用 C ++编写的，带有 Python

2017-03-31 10:21:10 8715 4

原创使用word2vec训练wiki中文语料

实验环境：Ubuntu + eclipse + python3.5首先（1）下载最新中文wiki语料库：wget https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2（2）由于下载之后，语料库上的编码格式会有不同，因此需要进行处理一下：借鉴了这篇文章。ht

2017-03-31 09:47:28 5133 1

原创 C#语音播放引擎cscore及其播放器

最近在找一个C#语音播放器的时候，才发现这个几乎很难找到，当然也存在自己找资料不太全的问题。但是至少这个是存在的，常见的还是Naudio的东西。但是说实话，除非XAML的WPF东西，不然Naudio做出来的界面化东西还真不怎样。不过幸运的是，Naudio平台也出来了一个界面化渲染的东西，也支持多种渲染方式。试验了下，效果还是不错，只是没有将播放与控制放在一起，很多操作还是不

2017-03-09 20:22:58 3090

原创 pyaudio库的安装（portaudio.h文件无法找到问题解决）

pyaudio是语音处理的python库，提供了比较丰富的功能。具体功能如下：特征提取(feature extraction)：关于时域信号和频域信号都有所涉及分类(classification)：监督学习，需要用已有的训练集来进行训练。交叉验证也实现了，进行参数优化使用。分类器可以保存在文件中以后使用。回归(regression)：将语音信号映射到一个回归值。分割(segme

2017-02-22 20:20:31 12205 4

原创 tensorflow 1.0安装过程中出现/usr/lib64/libstdc++.so.6: version 'GLIBCXX_3.4.19' not found问题的解决

在linux redhat 6.4环境下安装tensorflow的过程中，利用PIP直接安装是非常快的。但是在调用测试的过程中，却发现报这样的错误。/usr/lib64/libstdc++.so.6: version 'GLIBCXX_3.4.19' not found导致总是出现 failed to load the native tensorflow runtime

2017-02-22 17:35:41 6696 1

原创 openfst 1.6.1编译过程中失败的修改（short-path.h)

近期想升级一下KALDI这个程序，在编译openfst 1.6.1过程中，发现这个编译过程已经和原来的不太一样。网上没有可参照的地方。只能从原始的文档上进行查看http://www.openfst.org/twiki/bin/view/FST/DistInstall。通过文档查看，发现只需要三步Basic Installation===========

2017-02-22 16:20:30 2701 1

原创离线式echarts模拟百度迁徙的实现

实现了上两篇文章后：openlayers集成echarts实现百度迁徙的模拟(http://blog.csdn.net/sparkexpert/article/details/53899216)OpenLayers3加载离线百度地图(百度迁徙底图) http://blog.csdn.net/sparkexpert/article/details/53899463很容易就可以

2016-12-27 22:21:34 6244 11

原创 openlayers集成echarts实现百度迁徙的模拟

最近在做可视化测试的时候，突发灵感也实现一下百度迁徙的效果。然而

2016-12-27 22:12:01 5601 11

原创 OpenLayers3加载离线百度地图(百度迁徙底图)

关于openlayers加载离线百度地图的东东好几年前就做过了，不过当时做的是2.0版本的。自从好久没有去做可视化分析之后，也很少接触这些前端的JS的东西了。最近想实现一个东西的时候，才想起需要用到一些比较干净的底图。于是刚好选用了百度迁徙后面的底图。由于百度的JS包东西太多，需要的东西太复杂，于是就选用openlayers来进行测试。果然还是非常流畅。

2016-12-27 21:54:43 6890 3

原创 REDIS并行多线程写入时出现“如果基础流不可搜寻，则当读取缓冲区不为空时，将无法写入到 BufferedStream。”解决办法

在并行写入REDIS的时候，有时候会碰到这样的问题，即： System.NotSupportedException: 如果基础流不可搜寻，则当读取缓冲区不为空时，将无法写入到 BufferedStream。确保此 BufferedStream 下的流可搜寻或避免对此 BufferedStream 执行隔行读取和写入操作。在 System.IO.BufferedStream.Clear

2016-12-01 15:28:32 2703

原创面向社交网络用户的多维关联信息挖掘技术

将团队之前做过的微博用户多维分析的一些PPT进行分享。 (数据使用有些老，但是分析方法相对还是很全的) 微博数据蕴含了丰富的用户事件、内容、关系与态度等信息，在对数据充分理解分析的基础上，采用文本挖掘技术、统计学理论、关联分析与可视化等一系列相关技术，设计并实现了数据统计可视化、用户微博主题检测、情感倾向性分析、文本聚类分类、实体信息抽取、用户影响力分析、用户事件关联挖

2016-11-30 10:32:09 3655 2

原创 Deeplearning4j库学习

一、基础知识（了解）背景知识：如官网描述，dl4j-examples含有丰富的深度学习神经网络应用案例，这是一个为Java和Scala编写的首个商业级开源分布式深度学习库。DL4J与Hadoop和Spark集成，为商业环境（而非研究工具目的）所设计。Skymind是DL4J的商业支持机构。 Deeplearning4j的使用非常方便，它设计的目标是“即插即用”，通

2016-11-28 09:15:47 9049 3

原创微软开源认知服务CNTK的测试(语音训练)

前段时间，微软开源了认知服务的工具箱，直到近期才有时间进行测试。看了文档，这个CNTK工具包还是非常厉害的，可以支持语音识别，图像分类，机器翻译等多种任务。里面也集成了多种深度学习的模型。such as deep neural networks (DNNs), convolutional neural networks (CNNs), recurrent neural networ

2016-11-25 09:25:18 4029 6

原创关于Spark运行流式计算程序中跑一段时间出现GC overhead limit exceeded

最近在升级一个框架的时候，发现某个流式计算程序每隔一定的时间就会出现GC overhead limit exceeded的错误问题。这个问题肯定是内存不够，但是初始设置的内存是够的啊，于是进行各种内存优化，如将变量定义在循环体外等控制，但是发现只是将这个间隔时间往后推了一下而已。还是没有找到症结所在。后来再分析了下，可能是哪些变量占了内存没有及时释放掉，

2016-11-15 11:35:46 3921 1

原创 Spark 2.0 DataFrame map操作中Unable to find encoder for type stored in a Dataset.问题的分析与解决

随着新版本的spark已经逐渐稳定，最近拟将原有框架升级到spark 2.0。还是比较兴奋的，特别是SQL的速度真的快了许多。。然而，在其中一个操作时却卡住了。主要是dataframe.map操作，这个之前在spark 1.X是可以运行的，然而在spark 2.0上却无法通过。。看了提醒的问题，主要是：******error: Unable to find encod

2016-10-20 12:17:13 18449 4

原创 redhat6.4上Cassandra 3.9节点无法加入服务器(unable to bind IP:port)问题的解决

今天想测试一下cassandra新版本安装环境是redhat6.4由于以前装过3.7版本，只不过之前是在ubuntu上进行安装的。这回换在redhat没想到却一路坎坷。。。一直就报unable to bind *****:port这样的错误。网上搜了各种资料，发现关于这个问题的解决方案非常少。之前以为是JMXREMOTE没有设

2016-10-19 15:38:43 1595

原创 linux环境下时区无法设置(系统时间慢8个小时)的问题解决

当有一台节点崩溃之后，重启之后，观察spark 集群日志，发现有个时间无法同步的问题。再一仔细检查系统，输入date -R 才发现系统时间的时区设置为空。后面直接是+0000。这肯定不符合，再输入 date -u和date，发现两个时间居然一致。不过本来也是。本来这个UTC时间是需要与时区相加的，所以在时区未设置的情况下，两个值相同是正常的。可是按照

2016-10-18 19:27:10 7924 1

原创对spark dataframe join之后的列值NULL值进行填充为指定数值的操作

众所周知，两个数据集如A，B取JOIN操作的时候，其结果往往会出现NULL值的出现。这种情况是非常不利于后续的分析与计算的，特别是当涉及到对这个数值列进行各种聚合函数计算的时候。针对这种问题，当然从最简单的dataframe.map来处理是一种快速方法。然而今天在针对这个问题解决的时候，发现spark还提供了一个高级操作，就是：na.fill的函数。

2016-10-17 11:57:08 12061

原创如何避免spark dataframe的JOIN操作之后产生重复列（Reference '***' is ambiguous问题解决）

spark datafrme提供了强大的JOIN操作。但是在操作的时候，经常发现会碰到重复列的问题。如下：如分别创建两个DF，其结果如下：val df = sc.parallelize(Array( ("one", "A", 1), ("one", "B", 2), ("two", "A", 3), ("two", "B", 4))).toDF("

2016-10-17 11:31:01 15205 3

原创 HIVE备份之批量导出所有的HIVE建表字段

在HIVE实际工程部署当中，经常会用到一些备份，其中有一项就是如何保存所有HIVE表的建表命令语句。当HIVE中表格特别多的情况下，如何批量进行存储呢。针对这个问题，网上没有任何相关的资源。不过从HIVE本身提供的语句是支持这个，只是需要批量处理。最基本的两个语句：show tables; show create tables XXX.于

2016-10-17 10:06:55 8747 1

原创 sparksql udf自定义函数中参数过多问题的解决

在进行spark sql数据库操作中，常常需要一些spark系统本身不支持的函数，如获取某一列值中的字符串。如要获取　“aaaakkkkk”中的第4－第8个字符。针对这种需求，只有设置UDF来实现了。如val fun:((String,Int,Int) => String) = (args:String, k1:Int, k2:Int) => { args.

2016-10-16 20:23:26 6067 1

原创 HBase暴力删除HDFS数据后建表出现Table already exist问题的解决

在一些情况下，不得不对HBase数据进行暴力删除，这种情况如原始数据量特别大，而又不需要存储的时候。或者HBase无法启动等问题。删除比较简单，直接调用hadoop fs -rm -r /hbase这样的命令即可实现对HDFS上存储的HBASE原始文件进行删除。（当然细划的可以删除掉某个具体的数据表）。但是在删除完毕后，重启HBase后，创建数据表时候，发现出现table

2016-10-13 18:16:42 4827 1

原创 HBase启动过于缓慢的原因及其优化策略

当HBASE导入了几十亿的数据记录时，某一天重启一下HBASE，发现启动过于缓慢，一直在提示PleaseHoldException:Master is initializing, 打开日志实时查看了下，其提示的信息一直是region transition　状态的各种变化。然而最惨的是，运行到最近，直接由于zookeeper超时，导致无法启动。网上关于master is initaliz

2016-10-13 18:07:48 5328 1

原创 HBase启动错误client.ConnectionManager$HConnectionImplementation的解决办法

有时候，HBase因为在写入过程中直接强行中断之后，再次重启过程中，会经常出现一些异常信息。其中标题这个错误也是经常碰到的一个。具体报的错误如下：2016-09-28 14:08:16,448 ERROR [main]client.ConnectionManager$HConnectionImplementation: The node /hbase is not inZo

2016-10-05 09:50:16 22943 6

原创 HBase中正则过滤表达式与JAVA正则表达式不一致问题的分析和解决

HBase提供了丰富的查询过滤功能。比如说它提供了RegexStringComparator这样的函数，可以实现按照正则表达式进行过滤。它可以有效地弥补向前缀查询这样的机制，从而可以使hbase也支持了类似于like查询之类的功能。然而在实践过程中，很多人都会遇到一个问题，对于里面的正则表达式没有过于详细的介绍，一直以为是直接从JAVA等一些标准的正则表达式演化过来。直接拿

2016-09-28 22:29:48 3874

原创 spark submit中没有找到hbase中的*/hbase/client/put类的解决办法

在Eclipse或者IDEA中进行spark与hbase联接操作时，都没有错误，然后发现当进行spark-submit提交的时候，却发现找不到hbase库的问题。如截图所示。这个问题的核心肯定是找不到hbase相应的库。打开输出给spark进行调用的JAR包，发现hbase也包含在里面，但是为什么会访问不到这个包呢。终于在网上找了相关的问题，发现这是由于hadoop

2016-09-23 23:54:33 1813

原创 spark 从HIVE读数据导入hbase中发生空指针(java.lang.NullPointerException)问题的解决

陆续好多人会问，在写入Hbase的时候总是会出现空指针的问题，而检查程序，看起来一点也没有错。如报的错误大致如下：Error: application failed with exceptionjava.lang.RuntimeException: java.lang.NullPointerException at org.apache.hadoop.hbase.cl

2016-09-14 14:34:45 8689 1

原创 HBase时间老化的测试

最近想着测试一下HBase存储上的时间老化问题。Hbase本身还是提供这种功能的，总体上还是非常不错的。首先建立一个测试表。create 'ttt','f'hbase(main):015:0> disable 'ttt'0 row(s) in 4.5000 seconds然后修改老化时间为30秒。hbase(main):016:0> al

2016-09-13 10:10:02 1349

原创 spark 2.0.0与HIVE结合的测试

spark 2.0.0中，对hive的结合开发是否进行了改变，于是进行了如下测试。最大的变化就是没有什么HiveContext了。直接就是一个SparkSession。val spark = SparkSession .builder() .master("local[*]") .appName("Spark Hive Example")

2016-09-12 20:30:40 4724

原创 Hive在spark2.0.0启动时无法访问../lib/spark-assembly-*.jar: 没有那个文件或目录的解决办法

最近将整个架构升级到spark 2.0.0之后，发现一个问题，就是每次进行hive --service metastore启动的时候，总是会报一个小BUG。无法访问/home/ndscbigdata/soft/spark-2.0.0/lib/spark-assembly-*.jar: 没有那个文件或目录。而这一行究竟是怎么回事，网上没有任何有关的资料。没办法，只好一

2016-09-12 19:57:57 15600 2

空空如也

空空如也