大数据
Star先生
技术为本,行业为先!
展开
-
Microsoft 神经网络分析算法
本篇文章继续我们的微软挖掘系列算法总结,前几篇文章已经将相关的主要算法做了详细的介绍。在开始Microsoft 神经网络分析算法之前,本篇我们先将神经网络分析算法做一个简单介绍,此算法由于其本身的复杂性,所以我打算在开始之前先将算法原理做一个简单的总结,因为本身该算法就隶属于高等数学的研究范畴,我们对算法的推断和验证过程不做研究,只介绍该算法特点以及应用场景,且个人技术能力有限,不当之处还望勿喷。原创 2015-08-09 18:40:57 · 4734 阅读 · 0 评论 -
大数据基本概念及Hadoop技术基础
This article is from Teacher Ren courseware , which summarizes the basic concept of Big Data, related technologies and Hadaop technical basis. It is useful for beginners who learn Hadoop ,and I made P原创 2015-11-30 16:07:18 · 1768 阅读 · 0 评论 -
TFS(Taobao File System)安装办法
TFS(Taobao File System)是一个高可扩展、高可用、高性能、面向互联网服务的分布式文件系统,主要针对海量的非结构化数据,它构筑在普通的Linux机器 集群上,可为外部提供高可靠和高并发的存储访问。TFS为淘宝提供海量小文件存储,通常文件大小不超过1M,满足了淘宝对小文件存储的需求,被广泛地应用 在淘宝各项应用中。它采用了HA架构和平滑扩容,保证了整个文件系统的可用性和扩展性。同时扁原创 2015-12-09 11:46:40 · 6129 阅读 · 2 评论 -
Java实现高斯模糊算法处理图像
高斯模糊(英语:Gaussian Blur),也叫高斯平滑,是在Adobe Photoshop、GIMP以及Paint.NET等图像处理软件中广泛使用的处理效果,通常用它来减少图像噪声以及降低细节层次。 简介高斯模糊(Gaussian Blur)是美国Adobe图像软件公司开发的一个图像处理软件:Adobe Photoshop(系列)中的一个滤镜,具体的位置在:滤镜—模糊——高斯模糊!高斯模糊的原原创 2015-12-21 21:53:11 · 13626 阅读 · 15 评论 -
eclipse上运行spark程序
最近在学spark,尝试在Windows+Eclipse运行程序,现在分享给大家 首先,你得把你要处理的文件上传带HDFS,怎么上传文件网上都有教程,此处不再赘述。原创 2015-12-23 21:37:43 · 8338 阅读 · 0 评论 -
一个完整的MapReduce程序
最近初学Hadoop,仿照参考书上编写了一个wordcount程序,本文主要解决运行过程中出现的一些问题,下边先看一下这个项目。 项目结构 WordMapper类package wordcount;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.io.IntWrita原创 2015-12-01 14:18:52 · 7491 阅读 · 0 评论 -
《machine learning with spark》学习笔记--分类
In this article, you will learn the basics of classification models and how they can be used in a variety of contexts. Classification generically refers to classifying things into distinct categories o原创 2016-02-13 22:09:54 · 1033 阅读 · 0 评论 -
《machine learning with spark》学习笔记--聚类
Next, we will consider the case when we do not have labeled data available.This is called unsupervised learning, as the model is not supervised with the true target label. The unsupervised case is very原创 2016-02-14 23:01:44 · 1789 阅读 · 0 评论 -
《machine learning with spark》学习笔记--文本挖掘
We will introduce more advanced text processing techniques available in MLlib to work with large-scale text datasets.In this article, we will:Work through detailed examples that illustrate data proces原创 2016-02-15 21:11:11 · 2472 阅读 · 0 评论 -
10G数据不用框架快速去重
试想一下,如果有10G数据,或者更多;怎么才能够快速地去重呢?你会说将数据导入到数据库(mysql等)进行去重,或者用java写个程序进行去重,或者用Hadoop进行处理。如果是大量的数据要写入数据库也不是一件容易的事情,首先你需要开发一个程序将数据写入数据库,然后再用数据库的select distinct或者group by进行去重。如果是一次性的工作,这种方式显得就比较笨拙了。那么有没有更好的办原创 2016-03-10 11:32:24 · 3460 阅读 · 2 评论 -
Spark学习笔记(一)--Spark架构
Spark架构采用了分布式计算中的Master-Slave模型。Master是对应集群中的含有Master进程的节点,Slave是集群中含有Worker进程的节点。Master作为整个集群的控制器,负责整个集群的正常运行;Worker相当于是计算节点,接收主节点命令与进行状态汇报;Executor负责任务的执行;Cluster作为用户的客户端负责提交应用,Driver负责控制一个应用的执行。具体如下原创 2016-03-10 11:15:39 · 3811 阅读 · 0 评论 -
从源码中分析Hadoop的RPC机制
RPC是Remote Procedure Call(远程过程调用)的简称,这一机制都要面对两个问题 对象调用方式;序列/反序列化机制在此之前,我们有必要了解什么是架构层次的协议。通俗一点说,就是我把某些接口和接口中的方法称为协议,客户端和服务端只要实现这些接口中的方法就可以进行通信了,从这个角度来说,架构层次协议的说法就可以成立了。原创 2015-12-04 13:50:19 · 2531 阅读 · 0 评论 -
利用Hadoop和Spark处理用户心跳周期数据
数据源:可穿戴设备的实时数据分析。1.txt记录的是某一个用户的心跳周期数据,每一个数值表示一次心跳的周期,单位是秒。例如,0.8表示用户当时的心跳间隙是0.8秒。心跳间期按照顺序存储原创 2015-11-27 10:44:32 · 2550 阅读 · 0 评论 -
大数据,云计算,物联网和移动互联网关系图解
大数据,云计算,物联网和移动互联网关系图解原创 2015-07-22 13:21:35 · 29922 阅读 · 0 评论 -
Apriori算法
基本原理关联分析(association analysis)就是从大规模数据集中寻找物品间的隐含关系。这里的主要问题是,寻找物品的不同组合是一项十分耗时的任务,所需计算代价很高,蛮力搜索方法并不能解决这个问题,所以需要用更智能的方法在合理的时间内找到频繁项集。Apriori算法正是基于该原理得到的。关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系分为两种形式:频繁项集和关联规则。频繁项集(原创 2015-08-12 09:48:26 · 1786 阅读 · 0 评论 -
HBase基础知识(1):CRUD操作之put方法
数据库的初始基本操作被称CURD(Create,Read,Update,Delete),具体指增、查、改、删。HBase中有与之对应的一组操作。 下面介绍的这些组操作可以被分为两类:一类操作用于单行,另一类操作用于多行。鉴于后面有一些内容比较复杂,我们将分开介绍着两类操作。同时,我们还会介绍一些衍生的客户端的API特性。 单行put也许你现在最想了解的就是如何向HBase中存储数据,下面就是实现原创 2015-08-26 09:33:47 · 6546 阅读 · 0 评论 -
深入理解Hadoop集群和网络
云计算和Hadoop中网络是讨论得相对比较少的领域。本文将着重于讨论Hadoop集群的体系结构和方法,及它如何与网络和服务器基础设施的关系。最开始我们先学习一下Hadoop集群运作的基础原理。翻译 2015-08-01 14:45:49 · 1168 阅读 · 0 评论 -
HDFS文件操作
HDFS是一种文件系统,专为MapReduce这类框架下的大规模分布式数据处理而设计。你可以把一个大数据集(比如说100TB)在HDFS中存储为单个文件,而大多数其他的文件系统无力实现这一点。HDFS使你不必考虑这些细节,让你感觉就像在处理单个文件一样。原创 2015-08-02 20:46:06 · 2081 阅读 · 0 评论 -
剖析Mapeduce程序
如前所述,MpaReduce程序通过操作键/值对来处理数据,一般形式为 map:(K1,V1)->list<K2,V2>reduce:(K2,list(V2))->list<K3,V3> 上面是这个数据流的一个相当普通的表现,并无特别之处。而在本节,我们将学习更多的细节,涉及一个典型MapReduce程序的每个阶段。下图显示了这个完整过程的高阶试图,我们将逐步遍历这个流程来进一步剖析每一个组成部原创 2015-08-03 11:08:35 · 2055 阅读 · 0 评论 -
简单REST 客户端使用 SQL,Hadoop,Drill
根据福雷斯特研究公司(Forrester Research)的观点,SQL将成为Hadoop生态系统中最多产的应用方案之一。Apache Drill 是一个应用于大数据搜索的开源SQL查询引擎。REST服务和客户端已经成为互联网流行的技术。 Apache HBase则是一个广受欢迎的Hadoop NoSQL数据库。在本文中,我将结合 SQL、Hadoop、Drill、REST with JSON、N原创 2015-08-14 20:37:21 · 1806 阅读 · 0 评论 -
MapReduce实现计数
对于非计算机专人士,大多数统计就是计数,而且许多基础的Hadoop作业都包含了计数过程。我们希望从专利引用数据集中得到专利被引用的次数。这同样是计数。原创 2015-08-04 10:06:08 · 2148 阅读 · 0 评论 -
HBase 数据库检索性能优化策略
HBase 数据表介绍HBase 数据库是一个基于分布式的、面向列的、主要用于非结构化数据存储用途的开源数据库。其设计思路来源于 Google 的非开源数据库”BigTable”。 HBase 调用 API 示例类似于操作关系型数据库的 JDBC 库,HBase client 包本身提供了大量可以供操作的 API,帮助用户快速操作 HBase 数据库。提供了诸如创建数据表、删除数据表、增加字段、存原创 2015-08-14 21:22:17 · 1356 阅读 · 0 评论 -
Hadoop环境共享
虚拟机镜像链接1.下载解压后直接用VMVare打开(有点大,7个多G)2.虚拟机登录密码为liu原创 2015-12-14 09:48:05 · 1333 阅读 · 0 评论 -
大数据可视化Google Chart实现
本程序调用Weka API及libsvm工具包,对基金数据库进行数据预处理,然后将处理好的数据通过Chart.js 框架来实现数据的可视化,接下来要说明实现流程。完整版源码下载数据读取连接数据库Class.forName("com.mysql.jdbc.Driver").newInstance(); String url = "jdbc:mysql://localhost:3306/test原创 2016-01-04 19:37:45 · 4515 阅读 · 0 评论