2014年08月_数据娃掘

12月 11月 10月 09月 08月 07月

转载 ubuntu系统下eclipse配置hadoop开发环境并运行wordcount程序

先列出本机环境：ubuntu 12eclipse 3.6hadoop 1.1.2ubuntu12环境下hadoop1.1.2伪分布式配置成功，然后用Ant编译eclipse hadoop plugin插件，接下来就是eclipse hadoop开发环境配置了。具体的操作如下：一、在eclipse下安装开发hadoop程序的插件将编译好的hadoo

2014-08-31 03:07:44 1036

转载用Ant编译eclipse hadoop plugin插件

网上讲的用Ant编译eclipse hadoop plugin插件，都讲的很复杂，对于我这样的菜鸟哪里经得起这么多折腾，本人经过实践，写出我的编译经验首先安装eclipse,记住eclipse版本一定要+3.3，笔者就犯过这样的错误，我开始用3.2版本编译总是提示jar包找不到，纠结了很久，最后去官网看了说明才明白，所一建议大家多看官方文档。，本次编译环境如下：ubuntu12

2014-08-31 02:36:30 572

原创 hbase学习笔记

说在前面,本文部分内容来源于社区官网经过适度翻译，部分根据经验总结，部分是抄袭网络博文，(不一一列举引用，在此致歉)一并列在一起，本文的目的，希望能总结出一些有用的，应该注意到的东西，基本思路是先提出一个话题，在此话题内，把相关联的东西加进去，而不是单独分出章节单独介绍，虽然条理性欠差，但有利于后期根据关键词查找。 Apache HBase 是Hadoop database的简称，hba

2014-08-27 12:01:46 628

转载 Hadoop Mapper 阶段将数据直接从 HDFS 导入 Hbase

数据源格式如下：

2014-08-26 18:35:08 1427

原创关于hadoop reduce阶段遍历Iterable的注意事项

之前有童鞋问到了这样一个问题：为什么我在 reduce 阶段遍历了一次 Iterable 之后，再次遍历的时候，数据都没了呢？可能有童鞋想当然的回答：Iterable 只能单向遍历一次，就这样简单的原因。。。事实果真如此吗？

2014-08-26 17:32:47 2794 1

转载分分钟理解MapReduce精髓

微软著名的C++大师Herb Sutter在2005年初的时候曾经写过一篇重量级的文章：”The Free Lunch Is Over: A Fundamental Turn Toward Concurrency in Software“，预言OO之后软件开发将要面临的又一次重大变革-并行计算。

2014-08-26 11:13:48 742

原创 Mapreduce读写DB数据

有时候我们在项目中会遇到输入结果集很大，但是输出结果很小，比如一些 pv、uv 数据，然后为了实时查询的需求，或者一些 OLAP 的需求，我们需要 mapreduce 与 mysql 进行数据的交互，而这些特性正是 hbase 或者 hive 目前亟待改进的地方。好了言归正传，简单的说说背景、原理以及需要注意的地方：1、为了方便 MapReduce 直接访问关系型数据库（Mysql

2014-08-26 07:08:14 1162

转载 Pig、Hive、MapReduce 解决分组 Top K 问题

PS：如果说hive类似sql的话，那pig就类似plsql存储过程了：程序编写更自由，逻辑能处理的更强大了。pig中还能直接通过反射调用java的静态类中的方法，这块内容请参考之前的相关pig博文。附几个HIVE UDAF链接，有兴趣的同学自己看下：Hive UDAF和UDTF实现group by后获取top值 http://blog.csdn.net/liuzh

2014-08-26 06:44:09 715

原创如何发布自己的jar

程序设计从“面向过程”到“面向对象”，再到时有提起的“面向组件”，无不贯穿一个要素：代码的可复用性！今天告诉大家如何在 MyEclipse 中制作自己的类库，以及在其他项目中进行引用（Java project/Jsp project）。我所接触的框架还很基础，暂时只是一些简单的应用开发。那么我新建这样一个 java 库：我使用的项目名称为“Qu

2014-08-22 13:59:47 1299

转载 HBase Shell常用命令

下面我们看看HBase Shell的一些基本操作命令，我列出了几个常用的HBase Shell命令，如下：名称命令表达式创建表create '表名称', '列名称1','列名称2','列名称N'添加记录 put '表名称', '行名称', '列名称:', '值'查看记录

2014-08-20 23:48:34 595

原创 HBase如何实现多条件查询

实现条件查询功能使用的就是scan方式，scan在使用时有以下几点值得注意：1、scan可以通过setCaching与setBatch方法提高速度（以空间换时间）；2、scan可以通过setStartRow与setEndRow来限定范围。范围越小，性能越高。通过巧妙的RowKey设计使我们批量获取记录集合中的元素挨在一起（应该在同一个Region下），可以在遍历结果时获得很

2014-08-20 23:41:56 3323

转载 hive与hbase的区别与联系

问题导读：hive与hbase的底层存储是什么？hive是产生的原因是什么？habase是为了弥补hadoop的什么缺陷？共同点：1.hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储区别：2.Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统，HBase是为了支持弥补Hadoo

2014-08-20 23:28:56 754

转载 MapReduce组合式、迭代式，链式

能够到这一步，说明已经对hadoop入门，并且产生问题。这个问题，似乎困惑了不少初学者。1.比如我们输出的mapreduce结果，需要进入下一个mapreduce，该怎么解决？可以使用迭代式2.那么什么是迭代式?3.什么是依赖式？4.什么是链式？5.三种模式各自的应用场景是什么？能够到这一步，说明已经对h

2014-08-20 22:29:56 626

原创 hbase基础整理

当我们对于数据结构字段不够确定或杂乱无章很难按一个概念去进行抽取的数据适合用使用什么数据库？答案是什么，如果我们使用的传统数据库，肯定留有多余的字段，10个不行，20个，但是这个严重影响了质量。并且如果面对大数据库，pt级别的数据，这种浪费更是严重的，那么我们该使用是什么数据库？hbase数个不错的选择，那么我们对于hbase还存在下列问题：1.Column Family代表什么？2.

2014-08-20 11:22:51 708

转载 Memcached集群/分布式的单点故障

口水：Memcached在2009风靡全球，现在对Memcached态度大家各自褒贬不一，话不多说进入正题。我看到过这样一段文字“memcached如何处理容错的？不处理！:) 在memcached节点失效的情况下，集群没有必要做任何容错处理。如果发生了节点失效，应对的措施完全取决于用户。节点失效时，下面列出几种方案供您选择：* 忽略它！在失效节点被恢复或替换之前，还有很

2014-08-19 16:51:31 626

原创推荐算法之协同过滤实战

协同过滤（Collective Filtering）可以说是推荐系统的标配算法。在谈推荐必谈协同的今天，我们也来谈一谈基于KNN的协同过滤在实际的推荐应用中的一些心得体会。我们首先从协同过滤的两个假设聊起。两个假设：用户一般会喜欢与自己喜欢物品相似的物品用户一般会喜欢与自己相似的其他用户喜欢的物品上述假设分别对应了协同过滤的两种实现方式：

2014-08-18 14:20:50 1821

转载 Mahout算法集

Apache Mahout 是 ApacheSoftware Foundation (ASF) 旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序，并且，在 Mahout 的最近版本中还加入了对Apache Hadoop 的支持，使这些算法可以更高效的运行在云计算环境中。在Mahout实现的机器学习算法见下表

2014-08-14 09:26:16 618

Canopy Clustering 这个算法是2000年提出来的，此后与Hadoop配合，已经成为一个比较流行的算法了。确切的说，这个算法获得的并不是最终结果，它是为其他算法服务的，比如k-means算法。它能有效地降低k-means算法中计算点之间距离的复杂度。Mahout中已经实现了这个算法，不知道其他的机器学习类库和工具中，有多少是实现了这个算法的。感觉上这个算法要实现不难，难在和Hadoo

2014-08-14 09:22:00 949

原创 NFS是什么

一、NFS简介

2014-08-06 05:18:46 9522

转载 Linux NFS服务器的安装与配置

一、NFS服务简介　　NFS 是Network File System的缩写，即网络文件系统。一种使用于分散式文件系统的协定，由Sun公司开发，于1984年向外公布。功能是通过网络让不同的机器、不同的操作系统能够彼此分享个别的数据，让应用程序在客户端通过网络访问位于服务器磁盘中的数据，是在类Unix系统间实现磁盘文件共享的一种方法。　　NFS 的基本原则是“容许不同的客户端及服务端

2014-08-06 05:13:04 686

转载 hadoop版本比较

由于Hadoop版本混乱多变，因此，Hadoop的版本选择问题一直令很多初级用户苦恼。本文总结了Apache Hadoop和Cloudera Hadoop的版本衍化过程，并给出了选择Hadoop版本的一些建议。1. Apache Hadoop1.1 Apache版本衍化截至目前（2012年12月23日），Apache Hadoop版本分为两代，我们将第一代Hado

2014-08-05 15:30:27 738

转载 java模式之Reactor

Java　NIO非堵塞应用通常适用用在I/O读写等方面，我们知道，系统运行的性能瓶颈通常在I/O读写，包括对端口和文件的操作上，过去，在打开一个I/O通道后，read()将一直等待在端口一边读取字节内容，如果没有内容进来，read()也是傻傻的等，这会影响我们程序继续做其他事情，那么改进做法就是开设线程，让线程去等待，但是这样做也是相当耗费资源的。Java NIO非堵塞技术实际是采取Rea

2014-08-05 07:19:01 816

转载 Hadoop2.2.0 HA + Jdk1.8.0 + Zookeeper3.4.5 + Hbase0.98 集群搭建详细过程（服务器集群）

一、前言过完年在外实习，实习中的一部分主要工作就是关于hadoop的搭建和维护。其实hadoop的搭建本身并不是什么难题，主要是当一些之前没怎么用过linux、没怎么用到java的可怜的孩纸们来搞hadoop的时候会相当的揪心，非常不巧我也是的。因此可以说，学hadoop的过程是一个很痛苦但是也很有成就感的过程。先说一下我学习hadoop的过程，由于之前没有用过linux，

2014-08-05 05:46:15 1162

转载 flume-ng+Kafka+Storm+HDFS 实时系统搭建

一直以来都想接触Storm实时计算这块的东西，最近在群里看到上海一哥们罗宝写的Flume+Kafka+Storm的实时日志流系统的搭建文档，自己也跟着整了一遍，之前罗宝的文章中有一些要注意点没提到的，以后一些写错的点，在这边我会做修正；内容应该说绝大部分引用罗宝的文章的，这里要谢谢罗宝兄弟，还有写这篇文章@晨色星空J2EE也给了我很大帮助，这里也谢谢@晨色星空J2EE之前在弄这个的时候，跟

2014-08-05 05:37:27 982

转载 flume+kafka+storm+mysql架构设计

序言前段时间学习了storm，最近刚开blog，就把这些资料放上来供大家参考。这个框架用的组件基本都是最新稳定版本，flume-ng1.4+kafka0.8+storm0.9+mysql如果有需要测试项目代码的朋友，留下邮箱。（项目是maven项目，需要改动mysql配置，提供两种topology：读取本地文件（用来本地测试）；读取服务器日志文件。）架构图数据

2014-08-05 05:33:04 1669 4

转载使用Pig对手机上网日志进行分析

在成功安装Pig的基础上，本文将使用Pig对手机上网日志进行分析，具体步骤如下：写在前面：手机上网日志文件phone_log.txt，文件内容及字段说明部分截图如下需求分析显示每个手机号的上网流量情况。依次完成以下步骤：1、将Linux本地文件phone_log.txt上传到HDFS执行命令

2014-08-05 05:28:34 849

转载 Java线程池管理及分布式Hadoop调度框架搭建

多线程是程序员面试时常常会面对的问题，对多线程概念的掌握和理解水平，也常常被用来衡量一个人的编程实力。不错，普通的多线程已经不容易了，那么当多线程碰到“大象”又会产生什么样的火花？这里我们为大家分享上海创行科技技术总监严澜的博文——Java线程池管理及分布式Hadoop调度框架搭建。平时的开发中线程是个少不了的东西，比如tomcat里的servlet就是线程，没有线程我们如何提供多用户访问

2014-08-01 07:15:10 735

原创 Hadoop RPC机制总结

RPC是Hadoop的基础组件，提供分布式环境下的对象调用功能。之前用了两天时间分析与测试Hadoop RPC，目的是想弄清楚它对集群协作的影响。本来想等深入研究后再总结，但怕过完十一就忘的差不多了，那就今天写下来。这节描述三个部分： 1. Hadoop RPC 介绍 2. RPC server端的实体模型 3. 用户对RPC可以有哪些影响 Hadoop RPC介绍

2014-08-01 07:07:19 758

原创程序中log打印的梳理

程序中记录日志一般有两个目的：Troubleshooting和显示程序运行状态。好的日志记录方式可以提供我们足够多定位问题的依据。

2014-08-01 07:05:08 1261

原创 Hbase自己理解

今天公司进行了一样关于Hbase的培训，让我对Hbase有了基础的了解。和大家分享一样。自己的理解不是很深，如果有说的不对地方，希望大家斧正。　　什么是Hbase？　　HBase是一个分布式的、面向列的开源数据库。　　分布式：Hbase的分布式是依托于Hadoop的，那Hadoop又是什么？Hadoop 是一个能够对大量数据进行分布式处理的软件框架。其实我也不懂这是个什么框

2014-08-01 07:00:00 1386

下载最新简体中文停用词表 stopwords.txt

最新简体中文常见停用词表：stopwords.txt

2017-05-16

Ubuntu14下安装TP-LINK 无线网卡驱动-shell安装包版本

Ubuntu14下安装TP-LINK TL-WN823N无线网卡驱动程序。具体渠道程序，Realtek-RTL8192EU-driver.tar.gz

2017-05-09

Ubuntu14+CUDA8.0+cudnn傻瓜式安装手册

2017-05-07

tensorflow开发手册_1.0版（中文）, 2.0版（英文）

tensorflow开发手册_1.0版（中文）_201608； tensorflow开发手册_2.0版（英文）_201705；

2017-05-07

TP-LINK TL-WN823N chipset (0bda:818b) Ubuntu驱动程序

迷你型无线USB网卡，TP-LINK，TL-WN823N，Ubuntu驱动 Bus 003 Device 002: ID 0bda:818b Realtek Semiconductor Corp

2017-05-06

SpringMvc_RestfullAPI

使用SpringMvc开发的RestfullAPI，完整demo，可以直接利用。

2015-11-11

数据挖掘比赛入门_2015

这个是数据挖掘比赛的专业知识技巧整理的文档，是以去年阿里天猫推荐比赛为例，希望能对大家有帮助。

2015-11-11

电子商务系统分析与设计(第2版)课件PPT

电子商务系统分析与设计(第二版)的课件PPT文档。

2015-11-11

计算机网络(第4版)课后习题答案

《计算机网络（第4版）》是2011年出版的图书，作者是Andrew S.Tanenbaum。计算机网络第四版习题答案(中文版).

2015-11-11

fastjson-1.1.36.jar

fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。主要特点：快速FAST (比其它任何基于Java的解析器和生成器更快，包括jackson）强大（支持普通JDK类包括任意Java Bean Class、Collection、Map、Date或enum）零依赖（没有依赖其它任何类库除了JDK）示例代码： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 import com.alibaba.fastjson.JSON; Group group = new Group(); group.setId(0L); group.setName("admin"); User guestUser = new User(); guestUser.setId(2L); guestUser.setName("guest"); User rootUser = new User(); rootUser.setId(3L); rootUser.setName("root"); group.getUsers().add(guestUser); group.getUsers().add(rootUser); String jsonString = JSON.toJSONString(group); System.out.println(jsonString);

2015-11-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

下载 最新简体中文停用词表 stopwords.txt

Ubuntu14下安装TP-LINK 无线网卡驱动-shell安装包版本

Ubuntu14+CUDA8.0+cudnn傻瓜式安装手册

tensorflow开发手册_1.0版（中文）, 2.0版（英文）

TP-LINK TL-WN823N chipset (0bda:818b) Ubuntu驱动程序

SpringMvc_RestfullAPI

数据挖掘比赛入门_2015

电子商务系统分析与设计(第2版)课件PPT

计算机网络(第4版)课后习题答案

fastjson-1.1.36.jar

msysGit安装包下载

apache-maven-2.2.1

hadoop-eclipse-plugin-1.1.2.jar

apache-flume-1.4.0.tar.gz

apache-ant-1.9.1-bin.zip

ZendOptimizer-3.3.3-Windows-i386.zip

iisxp-v5.1.zip

mysqlcc-0.9.4-win32.zip

如何在vs2008中添加lib 静态库使用

6个简单而有用的VBA自定义函数

空空如也

下载最新简体中文停用词表 stopwords.txt