自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (1)
  • 收藏
  • 关注

原创 Hbase的数据清理之TTL设置以及MinVersion所起到的重要影响

1. 前言笔者刚从大数据跳槽到了数据挖掘,有很多过去操作大数据的经验还是想记录下来吧。其中印象比较深刻的还是Hbase的磁盘一直满,然后清理用的TTL设置,需求就是需要自动删除n天前的hbase数据,比起写代码定时删除来说还是用自带的TTL(Time To Live)比较方便一些,为此也是做了很多实验以及发现了MinVersion这个机制。2.TTL设置首先熟悉hbase的人都知道hbase的每个...

2018-04-10 11:25:42 6730

原创 实测最好用的Windows下tensorflow安装与pycharm配置

笔者最近在学习深度学习,听说tensorflow是一个比较好的框架,因此就尝试着安装学习一下,大致整理了一些步骤。1.下载安装Anaconda3.6版(看了很多材料都说2.7不能安装tensorflow,但还是不敢确定,因此这里就不断言了,只说明3.6版的),然后按照默认安装之后在环境变量中添加安装路径E:\software\Anaconda2.然后看下开始菜单里Anaconda的内容。后面带(t...

2018-04-10 10:07:12 985

原创 kafka学习总结(含java生产者、消费者、Topic操作代码)

kafka(http://kafka.apache.org)是一款分布式消息发布和订阅的系统,具有高性能和高吞吐率。笔者主要是将在自己的应用当中所用到资料整合在一起,并且加上自己的理解从而写下了这篇文章,文章主要包括了Kafka的简单介绍、Kafka的部署、Kafka的java代码应用。如果写的不好的地方还请指正。

2017-07-17 11:36:49 6708 3

原创 Java实现LSTM和GRU做分类(以IRIS数据集为例)

笔者想在JAVA项目中做机器学习的分类想使用循环神经网络的时候苦于没有找到开源的代码,最后终于找到lipiji所写的LSTM和GRU,项目GitHub链接在这:项目GitHub地址,但是这个项目的demo只是简单的做了一个文本序列的预测,无法达到自己做分类的目的,于是笔者新写了一个demo来实现分类的目的,这里所使用的数据集是Iris。Iris数据集是常用的分类实验数据集,由Fisher, 1

2017-04-25 12:01:45 7741 6

原创 Java版本word2vec跑中文数据使用心得

笔者目前在研究中文情感分析,其中考虑到使用word2vec来对词进行量化,从而可以达到计算词相似度或者之后拓展其他用法的目的。由于项目是Java版的,所以研究的是java版本的word2vec在此写下心得交流学习。 首先提供工具下载链接,分别有: Java版word2vec下载地址 Ansj分词jar包下载(这里用的是 ansj_seg-5.0.1-all-in-one.jar ) 搜狗2

2016-11-26 21:37:12 17715 5

整理后的搜狗实验室全网新闻数据样例(word2vec用)

用来测试word2vec的数据样本,从搜狗实验室全网新闻数据库http://www.sogou.com/labs/resource/list_news.php 下载并提取出新闻内容的数据。

2018-04-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除