Mojoooo-CSDN博客

转载线程：几种同步方式

为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法即有synchronized关键字修

2015-11-25 22:07:53 466

原创 Storm：storm架构

tuple：表示流中一个基本的处理单元，可以包括多个field，每个filed表示一个属性topology：一个拓扑是一个个计算节点组成的图，每个节点包换处理的逻辑，节点之间的连线表示数据流动的方向spout：表示一个流的源头，产生tuplebolt：处理输入流并产生多个输出流，可以做简单的数据转换计算，复杂的流处理一般需要经过多个bolt进行处理task：每个spout和bolt

2015-10-27 13:42:35 726

转载 Spark Streaming：初步了解

问题导读：1.什么是Spark Streaming？2.Spark Streaming可以接受那些数据源？3.Dstream，我们可以进行哪两种操作？参考：Spark：一个高效的分布式计算系统在看spark Streaming，我们需要首先知道什么是Spark streaming？Spark streaming: 构建在Spark上处理Stream数据的框架，基

2015-10-25 21:12:59 972

转载 Spark: Spark和Hadoop的区别--关于资源使用

Apache Spark的高性能一定程度上取决于它采用的异步并发模型（这里指server/driver端采用的模型），这与Hadoop 2.0（包括YARN和MapReduce）是一致的。Hadoop 2.0自己实现了类似Actor的异步并发模型，实现方式是epoll+状态机，而Apache Spark则直接采用了开源软件Akka，该软件实现了Actor模型，性能非常高。尽管二者在server

2015-10-25 14:48:14 1306

转载多线程：线程池

Java线程池使用说明一简介线程的使用在java中占有极其重要的地位，在jdk1.4极其之前的jdk版本中，关于线程池的使用是极其简陋的。在jdk1.5之后这一情况有了很大的改观。Jdk1.5之后加入了java.util.concurrent包，这个包中主要介绍java中线程以及线程池的使用。为我们在开发中处理线程的问题提供了非常大的帮助。二：线程池线程池的作用：线程池作用就是

2015-10-25 12:40:13 460

转载 AKKA示例教程

写并发程序很难。程序员不得不处理线程、锁和竞态条件等等，这个过程很容易出错，而且会导致程序代码难以阅读、测试和维护。所以，很多人不倾向于使用多线程编程。取而代之的是，他们使用单线程进程（译者注：只含有一个线程的进程），依赖外部服务（如数据库、队列等）处理所需的并发或异步操作。虽然这种方法在有些情况下是可行的，但还有很多其他情况不能奏效。很多实时系统——例如交易或银行业务应用，或实时游戏——

2015-10-25 12:30:14 1122

转载机器学习算法学习二：多元线性回归

多元线性回归能用office07发布简直是太好了，这下子省了很多事。1、多元线性回归模型假定被解释变量与多个解释变量之间具有线性关系，是解释变量的多元线性函数，称为多元线性回归模型。即 (1.1)其中为被解释变量，为个解释变量，为个未知参数，为随机误差项。被解释变量的期望值与解释变量的线性方程为： (1.2)称为多元总体线性回归方程，简称总体回归方程。对

2015-10-25 00:12:09 12823 2

原创机器学习算法学习一：线性回归

知识点：线性回归概念梯度下降算法 l 批量梯度下降算法 l 随机梯度下降算法 l 算法收敛判断方法1.1 线性回归在统计学中，线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的

2015-10-25 00:01:08 958

原创机器学习：PageRank算法--Scala实现

1. PageRank算法概述 PageRank,即网页排名，又称网页级别、Google左侧排名或佩奇排名。是Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法，自从Google在商业上获得空前的成功后，该算法也成为其他搜索引擎和学术界十分关注的计算模型。目前很多重要的链接分析算法都是在PageRank算

2015-10-21 14:07:44 1917

转载 Spark：Spark入门

概述什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需

2015-10-20 13:28:20 709

推荐在电商和互联网应用中已经应用的非常广泛，相比于根据query进行主动的搜索，推荐是更加被动的由系统自动推出商品给用户。搜索的意图比较明显，直接由query给出，而推荐需要计算猜测用户的意图，根据用户历史数据和当前行为，基于各种模型推荐合适的商品，提升用户体验，提高转化率。不过近些年来，搜索和推荐在底层模型和技术方面越来越趋于融合，利用机器学习的方式来改进搜索和推荐的质量，像搜索排序LTR等等。

2015-10-19 12:40:08 2072

转载机器学习：算法简单梳理

前言：　　找工作时（IT行业），除了常见的软件开发以外，机器学习岗位也可以当作是一个选择，不少计算机方向的研究生都会接触这个，如果你的研究方向是机器学习/数据挖掘之类，且又对其非常感兴趣的话，可以考虑考虑该岗位，毕竟在机器智能没达到人类水平之前，机器学习可以作为一种重要手段，而随着科技的不断发展，相信这方面的人才需求也会越来越大。　　纵观IT行业的招聘岗位，机器学习之类的岗位还是挺

2015-10-17 14:34:17 750

转载面试：创新工场，淘宝等面试题--09/2015

九月腾讯，创新工场，淘宝等公司最新面试三十题引言曾记否，去年的10月份也同此刻一样，是找工作的高峰期，本博客便是最初由整理微软等公司面试题而发展而来的。如今，又即将迈入求职高峰期--10月份，而本人也正在找下一份工作中，所以，也不免关注了网上和我个人建的算法群Algorithms1-12群内朋友发布和讨论的最新面试题。特此整理，以飨诸位。至于答案，望诸位共同讨论与思考

2015-10-17 14:30:12 562

转载面试：十题大数据处理

海量数据处理：十道面试题与十个海量数据处理方法总结作者：July、youwang、yanxionglu。时间：二零一一年三月二十六日说明：本文分为俩部分，第一部分为10道海量数据处理的面试题，第二部分为10个海量数据处理的方法总结。有任何问题，欢迎交流、指正。出处：http://blog.csdn.net/v_JULY_v。-----------------------

2015-10-17 14:23:58 1007

转载面试：微软等公司100道面试题--2010

作者:July、2010年12月6日。更新：现今，这100题的答案已经全部整理出来了，微软面试100题2010年版全部答案集锦：http://blog.csdn.net/v_july_v/article/details/6870251。关于此100道面试题的所有一切详情，包括答案，资源下载，帖子维护，答案更新，都请参考此文：横空出世，席卷Csdn [评微软等数据结构+算法面试100题]。以

2015-10-17 14:21:32 1592

转载面试：百度，阿里等--10/2015

十月百度，阿里巴巴，迅雷搜狗最新面试十一题引言当即早已进入10月份，十一过后，招聘，笔试，面试，求职渐趋火热。而在这一系列过程背后浮出的各大IT公司的笔试/面试题则蕴含着诸多思想与设计，细细把玩，思考一番亦能有不少收获。上个月，本博客着重整理九月腾讯，创新工场，淘宝等公司最新面试十三题，此次重点整理百度，阿里巴巴，迅雷和搜索等公司最新的面试题。同上

2015-10-17 14:19:03 1424

转载机器学习：算法介绍

在理解了我们需要解决的机器学习问题之后，我们可以思考一下我们需要收集什么数据以及我们可以用什么算法。本文我们会过一遍最流行的机器学习算法，大致了解哪些方法可用，很有帮助。机器学习领域有很多算法，然后每种算法又有很多延伸，所以对于一个特定问题，如何确定一个正确的算法是很困难的。本文中我想给你们两种方法来归纳在现实中会遇到的算法。学习方式根据如何处理经验、环境或者任何我们称之为

2015-10-17 14:12:47 856

转载 R语言入门

前言：关于R在R的官方教程里是这么给R下注解的:一个数据分析和图形显示的程序设计环境(A system for data analysis and visualization which is built based on S language.)。R的源起R是S语言的一种实现。S语言是由 AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言。最初S语言

2015-10-12 10:47:50 1254

转载 Hadoop总结三：HDFS--Federation

1. 当前HDFS架构和功能概述我们先回顾一下HDFS功能。HDFS实际上具有两个功能：命名空间管理（Namespace management）和块/存储管理服务（block/storage management）。1.1 命名空间管理HDFS的命名空间包含目录、文件和块。命名空间管理：是指命名空间支持对HDFS中的目录、文件和块做类似文件系统的创建、修改、

2015-10-11 09:08:51 703

原创 Hadoop总结四：MapReduce工作流程

1.MapReduce作业运行流程下面贴出我用visio2010画出的流程示意图：流程分析：1.在客户端启动一个作业。2.向JobTracker请求一个Job ID。3.将运行作业所需要的资源文件复制到HDFS上，包括MapReduce程序打包的JAR文件、配置文件和客户端计算所得的输入划分信息。这些文件

2015-10-10 20:31:30 536

原创 Hadoo总结二：HA高可用性原理

hadoop2.0HA的基本原理和2种方式。1 概述在hadoop2.0之前，namenode只有一个，存在单点问题（虽然hadoop1.0有secondarynamenode，checkpointnode，buckcupnode这些，但是单点问题依然存在），在hadoop2.0引入了HA机制。hadoop2.0的HA机制官方介绍了有2种方式，一种是NFS（Network Fil

2015-10-10 15:29:30 570

原创 Hadoop总结一：基础知识-Namenode，Datanode（非HA高可用性配置）

Namenode主要功能：接受客户端的读写服务Namenode保存metadata信息（元数据） --文件ownership和permissions --文件包含哪些快 --Block保存在哪个DataNode上（Datanode启动时上报）Namenode的metadata信息在启动后会加载到内存 --metadata存储到磁盘文件名为‘fsimage’

2015-10-10 15:24:37 1274

转载 Flume-ng配置

1）简介Flume是一个分布式、可靠、和高可用的海量日志聚合的系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。设计目标：(1) 可靠性当节点出现故障时，日志能够被传送到其他节点上而不会丢失。Flume提供了三种级别的可靠性保障，从强到弱依次分别为：end-to-end（收到数据agent首先将

2015-10-07 14:06:16 431

转载 Flume+Hbase--采集和储存日志数据

前言大数据时代，谁掌握了足够的数据，谁就有可能掌握未来，而其中的数据采集就是将来的流动资产积累。几乎任何规模企业，每时每刻也都在产生大量的数据，但这些数据如何归集、提炼始终是一个困扰。而大数据技术的意义确实不在于掌握规模庞大的数据信息，而在于对这些数据进行智能处理，从中分析和挖掘出有价值的信息，但前提是如何获取大量有价值的数据。在最近的工作当中，本人刚好实现

2015-10-07 11:50:36 749

转载 Hbase笔记六：Hbase和传统关系型数据库

在说HBase之前，我想再唠叨几句。做互联网应用的哥们儿应该都清楚，互联网应用这东西，你没办法预测你的系统什么时候会被多少人访问，你面临的用户到底有多少，说不定今天你的用户还少，明天系统用户就变多了，结果您的系统应付不过来了了，不干了，这岂不是咱哥几个的悲哀，说时髦点就叫“杯具啊”。其实说白了，这些就是事先没有认清楚互联网应用什么才是最重要的。从系统架构的角度来说，互联网应用更加看重系统性

2015-10-06 20:37:28 997

转载 Hbase笔记五：Hbase和Hive

对于刚接触大数据的用户来说，要想区分Hive与HBase是有一定难度的。本文将尝试从其各自的定义、特点、限制、应用场景等角度来进行分析，以作抛砖引玉之用。 Hive是什么？Apache Hive是一个构建于Hadoop(分布式系统基础架构)顶层的数据仓库，注意这里不是数据库。Hive可以看作是用户编程接口，它本身不存储和计算数据；它依赖于HDFS(Hadoop分布式文件系统)和Ma

2015-10-06 20:36:09 461

转载 Google Protocal Buffer

简介什么是 Google Protocol Buffer？假如您在网上搜索，应该会得到类似这样的文字介绍：Google Protocol Buffer( 简称 Protobuf) 是 Google 公司内部的混合语言数据标准，目前已经正在使用的有超过 48,162 种报文格式定义和超过 12,183 个 .proto 文件。他们用于 RPC 系统和持续数据存储系统。Pro

2015-10-06 18:01:20 506

转载 NTP服务和时间同步

目标环境，5台linux centos 6.3，一台作为NTPD服务与外部公共NTP服务同步时间，同时作为内网的NTPD服务器，其他机器与这台服务做时间同步。服务器IP角色说明同步方式 192.168.1.135 NTPD服务 1、负责与外部公共NTPD服务同步标准时间 2、作为内外网络的NTPD服务

2015-10-06 17:54:46 999

原创 Hbase笔记四：Hbase基于Hadoop的完全分布式安装

五个节点node1 backup-masternode2 regionservernode3 regionservernode4 regionservernode5 master安装前提： 1.安装JDK----建议安装JDK1.7，JDK 1.8的也支持，但是官网建议使用1.8之前的版本 2.Had

2015-10-06 13:21:49 399

转载 Hbase笔记三：Hbase基本命令

下面我们看看HBase Shell的一些基本操作命令，我列出了几个常用的HBase Shell命令，如下：名称命令表达式创建表create '表名称', '列名称1','列名称2','列名称N'添加记录 put '表名称', '行名称', '列名称:', '值'

2015-10-06 13:19:59 411

转载 Hbase笔记二：简明系统架构

HBase 系统架构图　　　　组成部件说明　　Client：　　使用HBase RPC机制与HMaster和HRegionServer进行通信　　Client与HMaster进行通信进行管理类操作　　Client与HRegionServer进行数据读写类操作　　Zookeeper：　　Zookeeper Quorum存储-ROOT-表地址、HMa

2015-10-04 11:50:34 446

转载 Hbase笔记一：了解Hbase

Hbase：逻辑视图　　逻辑上看，HBase以表的形式存储数据。表有行和列组成。列划分为若干个列族(row family)Row Keycolumn-family1column-family2column-family3column1column1column1column2colu

2015-10-04 11:49:17 645

转载 Hive笔记十二：实例

背景假设有一个学生各门课的成绩的表单，应用hive取出每科成绩前100名的学生成绩。这个就是典型在分组取Top N的需求。解决思路对于取出每科成绩前100名的学生成绩，针对学生成绩表，根据学科，成绩做order by排序,然后对排序后的成绩，执行自定义函数row_number(),必须带一个或者多个列参数，如ROW_NUMBER(col1, ....)，它

2015-10-03 23:20:57 491

转载 Hive笔记十一：查询进阶

通过Hive提供的order by子句可以让最终的输出结果整体有序。但是因为Hive是基于Hadoop之上的，要生成这种整体有序的结果，就必须强迫Hadoop只利用一个Reduce来完成处理。这种方式的副作用就是回降低效率。如果你不需要最终结果整体有序，你就可以使用sort by子句来进行排序。这种排序操作只保证每个Reduce的输出是有序的。如果你希望某些特定行被同一个Reduce处理，

2015-10-03 23:20:00 411

转载 Hive笔记十：自定义函数UDF和UDAF

Hive进行UDF开发十分简单，此处所说UDF为Temporary的function，所以需要hive版本在0.4.0以上才可以。一、背景：Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：a）文件格式：Text File，Sequence Fileb）内存中的数据格式： Java Inte

2015-10-03 23:17:24 750

转载 Hive笔记九：Hive输入输出适配类（CSV,XML）

在最初使用 hive ，应该说上手还是挺快的。 Hive 提供的类 SQL 语句与 mysql 语句极为相似，语法上有大量相同的地方，这给我们上手带来了很大的方便，但是要得心应手地写好这些语句，还需要对 hive 有较好的了解，才能结合 hive 特色写出精妙的语句。关于 hive 语言的详细语法可参考官方 wiki 的语言手册：http://wiki.apache.org/hadoop/

2015-10-03 23:13:54 688

转载 Hive笔记八：Hive体系结构

1、Hive架构与基本组成下面是Hive的架构图。图1.1 Hive体系结构 Hive的体系结构可以分为以下几部分：（1）用户接口主要有三个：CLI，Client 和 WUI。其中最常用的是CLI，Cli启动的时候，会同时启动一个Hive副本。Client是Hive的客户端，用户连接至Hive Server。在启动 Client模式

2015-10-03 23:09:49 1020

转载 Hive笔记七：Hive的数据导出

根据导出的地方不一样，将这些方式分为三种：（1）、导出到本地文件系统；（2）、导出到HDFS中；（3）、导出到Hive的另一个表中。为了避免单纯的文字，我将一步一步地用命令进行说明。一、导出到本地文件系统　　hive> insert overwrite local directory '/home/wyp/wyp' > se

2015-10-03 23:06:34 423

转载 Hive笔记六：数据导入

Hive的几种常见的数据导入方式这里介绍四种：（1）、从本地文件系统中导入数据到Hive表；（2）、从HDFS上导入数据到Hive表；（3）、从别的表中查询出相应的数据并导入到Hive表中；（4）、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。一、从本地文件系统中导入数据到Hive表先在Hive里面创建好表，如下：

2015-10-03 22:49:03 356

转载 Hive笔记五：入门教程

摘要：　　Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 QL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer

2015-10-03 22:47:49 969

空空如也

空空如也