自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据挖掘SparkExpert的博客

大数据智能相关理论、技术与工具的学习、理解和精通掌握过程集合

  • 博客(265)
  • 收藏
  • 关注

原创 google图像新压缩技术RAISR的测试

不久前,Google刚刚发布了一种名为RAISR(Rapid and Accurate Super Image Resolution,意为“快速、精确的超级图像分辨率技术”)的图像压缩技术,旨在保存宝贵的数据,而不牺牲照片质量;并在带宽受限的移动设备上提供清晰锐利的图像。Google声称,该技术可以降低高达75%的带宽,RAISR分析同一图像的低分辨率和高分辨率版本,了解到高分辨率版本

2017-04-26 10:27:27 11408 3

原创 LargeVis可视化技术学习

大图可视化一直是大数据可视化领域的一个关键技术,当前有各种办法,但是今年出来了一个LargeVis的技术,因此对这个技术进行复现和学习一下。前面有很多基础理论,如基本的降维理论,SNE,t-SNE可视化算法等,这些一概略过,想关注理论的可以参考网址:https://bindog.github.io/blog/2016/06/04/from-sne-to-tsne-to-largevis

2017-04-25 11:49:03 8304 6

原创 python3环境下 tensorflow环境中经常遇到'*' has type str, but expected one of: bytes问题的解决

为了对flowers数据集进行训练,于是调用了tensorflow的slim模块中的download_and_convert_flowers.py文件进行处理,但是下载完成之后,执行过程中碰到一个问题:'jpg' has type str, but expected one of: bytes看来tensorflow默认的源码都是基于python2环境下的。

2017-04-18 16:51:00 15062

原创 python3 下 tensorflow slim inceptionV4 问题修正与测试

自从残差网络出来之后,好多人就想着能不能对模型进行结合测试一下。Google Research的Inception模型和Microsoft Research的ResidualNet模型两大图像识别杀器结合效果如何?在这篇2月23日公布在arxiv上的文章“Inception-v4, Inception-ResNet and the Impactof Residual Connections

2017-04-18 16:19:19 3936 1

原创 基于tensorflow + Vgg16进行图像分类识别的实验

图像分类识别目前已经得到了很大的飞跃,特别是15年微软提出的resnet已经超越人类,能够对图像中的物体进行更好的识别。为了初步了解一下图像分类识别的过程,学习了一下大牛的主页,发现还是很有意思的。而且从imagenet的角度来说,这个经度还是可以接受的。本实验主要参照了这个网页https://www.cs.toronto.edu/~frossard/post/vgg1

2017-04-17 11:03:30 42955 16

原创 基于tensorflow实现图像风格的变换

Leon A. Gatys, Alexander S. Ecker, 和 Matthias Bethge等人的论文“A Neural Algorithm of Artistic Style”开创了图像艺术风格转换的途径,自此之后,利用深度学习相关模型和处理方法,可以实现用计算机代替传世画家的野心。印象派、野兽派、浮世绘、波普、解构主义,曾经艺术风格曾经都是画家脑中不可捉摸的概念。而到了人工

2017-04-15 20:53:56 3986 1

原创 tensorflow 1.01中GAN(生成对抗网络)手写字体生成例子(MINST)的测试

为了更好地掌握GAN的例子,从网上找了段代码进行跑了下,测试了效果。具体过程如下:代码文件如下:import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_dataimport numpy as npfrom skimage.io import imsaveimport o

2017-04-12 21:00:34 13686 9

原创 生成对抗网络(GAN)的一些知识整理(课件)

无监督学习是机器学习的未来,而现在GAN的出现,则为无监督学习带来了光明。鉴于GAN的火热,最近将从一些大牛分享资料中截取和整理的资料附图如下:最近测试了一下tensorflow环境下gan的例子。同时

2017-04-12 20:52:21 6121 4

原创 ubuntu环境下 python 3.0以上版本对sqlite3的支持问题

近日,才发现python3.6版本居然不支持sqlite3.这个问题的引起是想实现一下tensorflow下的文本摘要模型的测试。遇到的问题如下:Traceback (most recent call last):  File "/home/ndscbigdata/work/python/jdataApp/src/tf/textsum/textsum_data_co

2017-04-10 11:38:03 6017

原创 facebook Faiss的基本使用示例(逐步深入)

针对上一篇文章,安装完毕之后,可以对faiss进行基本的案例学习,具体步骤如下:step1:构造实验数据step2:为向量集构建IndexFlatL2索引,它是最简单的索引类型,只执行强力L2距离搜索step3:进行简单的k-近邻搜索结果如下: NOTE: 1.程序输出为查询向量的最近邻的4个向量的索引

2017-03-31 10:34:19 26591 4

原创 facebook faiss的安装测试

Faiss 是由 Facebook AI Research(FAIR)开发的一个用于有效的相似性搜索(similarity search)和稠密矢量聚类(clustering of dense vectors)的库。它包含了在任何大小的向量集合里进行搜索的算法,向量集合的大小甚至可以达到装不进 RAM。它还包含了用于评估和参数调优的支持代码。Faiss 是用 C ++编写的,带有 Python

2017-03-31 10:21:10 8715 4

原创 使用word2vec训练wiki中文语料

实验环境:Ubuntu + eclipse + python3.5首先(1)下载最新中文wiki语料库:wget https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2(2)由于下载之后,语料库上的编码格式会有不同,因此需要进行处理一下:借鉴了这篇文章。ht

2017-03-31 09:47:28 5133 1

原创 C#语音播放引擎cscore及其播放器

最近在找一个C#语音播放器的时候,才发现这个几乎很难找到,当然也存在自己找资料不太全的问题。但是至少这个是存在的,常见的还是Naudio的东西。但是说实话,除非XAML的WPF东西,不然Naudio做出来的界面化东西还真不怎样。不过幸运的是,Naudio平台也出来了一个界面化渲染的东西,也支持多种渲染方式。试验了下,效果还是不错,只是没有将播放与控制放在一起,很多操作还是不

2017-03-09 20:22:58 3090

原创 pyaudio库的安装(portaudio.h文件无法找到问题解决)

pyaudio是语音处理的python库,提供了比较丰富的功能。具体功能如下:特征提取(feature extraction):关于时域信号和频域信号都有所涉及分类(classification):监督学习,需要用已有的训练集来进行训练。交叉验证也实现了,进行参数优化使用。分类器可以保存在文件中以后使用。回归(regression):将语音信号映射到一个回归值。分割(segme

2017-02-22 20:20:31 12205 4

原创 tensorflow 1.0安装过程中出现/usr/lib64/libstdc++.so.6: version 'GLIBCXX_3.4.19' not found问题的解决

在linux redhat 6.4环境下安装tensorflow的过程中,利用PIP直接安装是非常快的。但是在调用测试的过程中,却发现报这样的错误。/usr/lib64/libstdc++.so.6: version 'GLIBCXX_3.4.19' not found导致总是出现 failed to load the native tensorflow runtime

2017-02-22 17:35:41 6696 1

原创 openfst 1.6.1编译过程中失败的修改(short-path.h)

近期想升级一下KALDI这个程序,在编译openfst 1.6.1过程中,发现这个编译过程已经和原来的不太一样。网上没有可参照的地方。只能从原始的文档上进行查看http://www.openfst.org/twiki/bin/view/FST/DistInstall。通过文档查看,发现只需要三步Basic Installation===========

2017-02-22 16:20:30 2701 1

原创 离线式echarts模拟百度迁徙的实现

实现了上两篇文章后:openlayers集成echarts实现百度迁徙的模拟(http://blog.csdn.net/sparkexpert/article/details/53899216)OpenLayers3加载离线百度地图(百度迁徙底图) http://blog.csdn.net/sparkexpert/article/details/53899463很容易就可以

2016-12-27 22:21:34 6244 11

原创 openlayers集成echarts实现百度迁徙的模拟

最近在做可视化测试的时候,突发灵感也实现一下百度迁徙的效果。然而

2016-12-27 22:12:01 5601 11

原创 OpenLayers3加载离线百度地图(百度迁徙底图)

关于openlayers加载离线百度地图的东东好几年前就做过了,不过当时做的是2.0版本的。自从好久没有去做可视化分析之后,也很少接触这些前端的JS的东西了。最近想实现一个东西的时候,才想起需要用到一些比较干净的底图。于是刚好选用了百度迁徙后面的底图。由于百度的JS包东西太多,需要的东西太复杂,于是就选用openlayers来进行测试。果然还是非常流畅。

2016-12-27 21:54:43 6890 3

原创 REDIS并行多线程写入时出现“如果基础流不可搜寻,则当读取缓冲区不为空时,将无法写入到 BufferedStream。”解决办法

在并行写入REDIS的时候,有时候会碰到这样的问题,即: System.NotSupportedException: 如果基础流不可搜寻,则当读取缓冲区不为空时,将无法写入到 BufferedStream。确保此 BufferedStream 下的流可搜寻或避免对此 BufferedStream 执行隔行读取和写入操作。   在 System.IO.BufferedStream.Clear

2016-12-01 15:28:32 2703

原创 面向社交网络用户的多维关联信息挖掘技术

将团队之前做过的微博用户多维分析的一些PPT进行分享。   (数据使用有些老,但是分析方法相对还是很全的)       微博数据蕴含了丰富的用户事件、内容、关系与态度等信息,在对数据充分理解分析的基础上,采用文本挖掘技术、统计学理论、关联分析与可视化等一系列相关技术,设计并实现了数据统计可视化、用户微博主题检测、情感倾向性分析、文本聚类分类、实体信息抽取、用户影响力分析、用户事件关联挖

2016-11-30 10:32:09 3655 2

原创 Deeplearning4j库学习

一、基础知识(了解)    背景知识:    如官网描述,dl4j-examples含有丰富的深度学习神经网络应用案例,这是一个为Java和Scala编写的首个商业级开源分布式深度学习库。DL4J与Hadoop和Spark集成,为商业环境(而非研究工具目的)所设计。Skymind是DL4J的商业支持机构。    Deeplearning4j的使用非常方便,它设计的目标是“即插即用”,通

2016-11-28 09:15:47 9049 3

原创 微软开源认知服务CNTK的测试(语音训练)

前段时间,微软开源了认知服务的工具箱,直到近期才有时间进行测试。看了文档,这个CNTK工具包还是非常厉害的,可以支持语音识别,图像分类,机器翻译等多种任务。里面也集成了多种深度学习的模型。such as deep neural networks (DNNs), convolutional neural networks (CNNs), recurrent neural networ

2016-11-25 09:25:18 4029 6

原创 关于Spark运行流式计算程序中跑一段时间出现GC overhead limit exceeded

最近在升级一个框架的时候,发现某个流式计算程序每隔一定的时间就会出现GC overhead limit exceeded的错误问题。这个问题肯定是内存不够,但是初始设置的内存是够的啊,于是进行各种内存优化,如将变量定义在循环体外等控制,但是发现只是将这个间隔时间往后推了一下而已。还是没有找到症结所在。后来再分析了下,可能是哪些变量占了内存没有及时释放掉,

2016-11-15 11:35:46 3921 1

原创 Spark 2.0 DataFrame map操作中Unable to find encoder for type stored in a Dataset.问题的分析与解决

随着新版本的spark已经逐渐稳定,最近拟将原有框架升级到spark 2.0。还是比较兴奋的,特别是SQL的速度真的快了许多。。 然而,在其中一个操作时却卡住了。主要是dataframe.map操作,这个之前在spark 1.X是可以运行的,然而在spark 2.0上却无法通过。。看了提醒的问题,主要是:******error: Unable to find encod

2016-10-20 12:17:13 18449 4

原创 redhat6.4上Cassandra 3.9节点无法加入服务器(unable to bind IP:port)问题的解决

今天想测试一下cassandra新版本安装环境是redhat6.4由于以前装过3.7版本,只不过之前是在ubuntu上进行安装的。这回换在redhat没想到却一路坎坷。。。一直就报unable to bind *****:port这样的错误。网上搜了各种资料,发现关于这个问题的解决方案非常少。之前以为是JMXREMOTE没有设

2016-10-19 15:38:43 1595

原创 linux环境下时区无法设置(系统时间慢8个小时)的问题解决

当有一台节点崩溃之后,重启之后,观察spark 集群日志,发现有个时间无法同步的问题。再一仔细检查系统,输入date -R 才发现系统时间的时区设置为空。后面直接是+0000。这肯定不符合,再输入 date -u和date,发现两个时间居然一致。不过本来也是。本来这个UTC时间是需要与时区相加的,所以在时区未设置的情况下,两个值相同是正常的。可是按照

2016-10-18 19:27:10 7924 1

原创 对spark dataframe join之后的列值NULL值进行填充为指定数值的操作

众所周知,两个数据集如A,B取JOIN操作的时候,其结果往往会出现NULL值的出现。这种情况是非常不利于后续的分析与计算的,特别是当涉及到对这个数值列进行各种聚合函数计算的时候。针对这种问题,当然从最简单的dataframe.map来处理是一种快速方法。然而今天在针对这个问题解决的时候,发现spark还提供了一个高级操作,就是:na.fill的函数。

2016-10-17 11:57:08 12061

原创 如何避免spark dataframe的JOIN操作之后产生重复列(Reference '***' is ambiguous问题解决)

spark datafrme提供了强大的JOIN操作。但是在操作的时候,经常发现会碰到重复列的问题。如下:如分别创建两个DF,其结果如下:val df = sc.parallelize(Array(    ("one", "A", 1), ("one", "B", 2), ("two", "A", 3), ("two", "B", 4))).toDF("

2016-10-17 11:31:01 15205 3

原创 HIVE备份之批量导出所有的HIVE建表字段

在HIVE实际工程部署当中,经常会用到一些备份,其中有一项就是如何保存所有HIVE表的建表命令语句。当HIVE中表格特别多的情况下,如何批量进行存储呢。针对这个问题,网上没有任何相关的资源。不过从HIVE本身提供的语句是支持这个,只是需要批量处理。最基本的两个语句:show tables; show create tables XXX.于

2016-10-17 10:06:55 8747 1

原创 sparksql udf自定义函数中参数过多问题的解决

在进行spark sql数据库操作中,常常需要一些spark系统本身不支持的函数,如获取某一列值中的字符串。如要获取 “aaaakkkkk”中的第4-第8个字符。针对这种需求,只有设置UDF来实现了。如val fun:((String,Int,Int) => String) = (args:String, k1:Int, k2:Int) => { args.

2016-10-16 20:23:26 6067 1

原创 HBase暴力删除HDFS数据后建表出现Table already exist问题的解决

在一些情况下,不得不对HBase数据进行暴力删除,这种情况如原始数据量特别大,而又不需要存储的时候。或者HBase无法启动等问题。删除比较简单,直接调用hadoop fs -rm -r /hbase这样的命令即可实现对HDFS上存储的HBASE原始文件进行删除。(当然细划的可以删除掉某个具体的数据表)。但是在删除完毕后,重启HBase后,创建数据表时候,发现出现table

2016-10-13 18:16:42 4827 1

原创 HBase启动过于缓慢的原因及其优化策略

当HBASE导入了几十亿的数据记录时,某一天重启一下HBASE,发现启动过于缓慢,一直在提示PleaseHoldException:Master is initializing, 打开日志实时查看了下,其提示的信息一直是region transition 状态的各种变化。然而最惨的是,运行到最近,直接由于zookeeper超时,导致无法启动。网上关于master is initaliz

2016-10-13 18:07:48 5328 1

原创 HBase启动错误client.ConnectionManager$HConnectionImplementation的解决办法

有时候,HBase因为在写入过程中直接强行中断之后,再次重启过程中,会经常出现一些异常信息。其中标题这个错误也是经常碰到的一个。具体报的错误如下:2016-09-28 14:08:16,448 ERROR [main]client.ConnectionManager$HConnectionImplementation: The node /hbase is not inZo

2016-10-05 09:50:16 22943 6

原创 HBase中正则过滤表达式与JAVA正则表达式不一致问题的分析和解决

HBase提供了丰富的查询过滤功能。比如说它提供了RegexStringComparator这样的函数,可以实现按照正则表达式进行过滤。它可以有效地弥补向前缀查询这样的机制,从而可以使hbase也支持了类似于like查询之类的功能。然而在实践过程中,很多人都会遇到一个问题,对于里面的正则表达式没有过于详细的介绍,一直以为是直接从JAVA等一些标准的正则表达式演化过来。直接拿

2016-09-28 22:29:48 3874

原创 spark submit中没有找到hbase中的*/hbase/client/put类的解决办法

在Eclipse或者IDEA中进行spark与hbase联接操作时,都没有错误,然后发现当进行spark-submit提交的时候,却发现找不到hbase库的问题。如截图所示。这个问题的核心肯定是找不到hbase相应的库。打开输出给spark进行调用的JAR包,发现hbase也包含在里面,但是为什么会访问不到这个包呢。终于在网上找了相关的问题,发现这是由于hadoop

2016-09-23 23:54:33 1813

原创 spark 从HIVE读数据导入hbase中发生空指针(java.lang.NullPointerException)问题的解决

陆续好多人会问,在写入Hbase的时候总是会出现空指针的问题,而检查程序,看起来一点也没有错。如报的错误大致如下:Error: application failed with exceptionjava.lang.RuntimeException: java.lang.NullPointerException    at org.apache.hadoop.hbase.cl

2016-09-14 14:34:45 8689 1

原创 HBase时间老化的测试

最近想着测试一下HBase存储上的时间老化问题。Hbase本身还是提供这种功能的,总体上还是非常不错的。首先建立一个测试表。create 'ttt','f'hbase(main):015:0> disable 'ttt'0 row(s) in 4.5000 seconds然后修改老化时间为30秒。hbase(main):016:0> al

2016-09-13 10:10:02 1349

原创 spark 2.0.0与HIVE结合的测试

spark 2.0.0中,对hive的结合开发是否进行了改变,于是进行了如下测试。最大的变化就是没有什么HiveContext了。直接就是一个SparkSession。val spark = SparkSession      .builder()      .master("local[*]")      .appName("Spark Hive Example")

2016-09-12 20:30:40 4724

原创 Hive在spark2.0.0启动时无法访问../lib/spark-assembly-*.jar: 没有那个文件或目录的解决办法

最近将整个架构升级到spark 2.0.0之后,发现一个问题,就是每次进行hive --service metastore启动的时候,总是会报一个小BUG。无法访问/home/ndscbigdata/soft/spark-2.0.0/lib/spark-assembly-*.jar: 没有那个文件或目录。而这一行究竟是怎么回事,网上没有任何有关的资料。没办法,只好一

2016-09-12 19:57:57 15600 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除