crazy_gai-CSDN博客

原创数据结构与算法 - LC - 数组与字符串 - 两数之和(1 Two Sum)

题目描述给定一个整数数组 nums和一个整数目标值 target，请你在该数组中找出和为目标值的那两个整数，并返回它们的数组下标。你可以假设每种输入只会对应一个答案。但是，数组中同一个元素在答案里不能重复出现。你可以按任意顺序返回答案。示例 1：输入：nums = [3,2,4], target = 6输出：[1,2]示例 2：输入：nums = [2,7,11,15], target = 9输出：[0,1]示例 3：输入：nums = ...

2021-04-18 18:39:01 221

原创 DPP多样性

一、推荐系统目标推荐系统的目标主要包含两个方面：Exploitation和Exploration 。在Exploitation中最重要的是Relevance( 相关性 ) 的计算，其根本思想是根据用户浏览、观看和收藏的内容等用户行为数据推测该用户可能采取的行动。常见的推荐算法大多是基于针对该目标的优化而展开的。然而用户行为数据在现实中很可能过少、不足以全面地体现用户的兴趣。这一现象在冷启动等场景中很常见。此时推荐系统还有责任挖掘用户尚未表现出的兴趣，并且避免由于现有行为数据...

2020-11-04 21:34:56 2584

原创 Hive的UDF

1、UDF函数可以直接应用于select语句，对查询结构做格式化处理后，再输出内容。2、编写UDF函数的时候需要注意一下几点： a）自定义UDF需要继承org.apache.hadoop.hive.ql.UDF。 b）需要实现evaluate函数，evaluate函数支持重载。

2015-06-03 15:19:37 1662

原创 Hive表

一、Hive运行模式 1.Hive的运行模式即任务的执行环境 2.分为本地与集群两种,我们可以通过mapred.job.tracker 来指明设置方式：hive > SET mapred.job.tracker=local二、Hive的启动方式 1.hive 命令行模式，直接输入#/hive/bin/hive的执行程序

2015-05-31 20:46:48 1781

原创 hive安装(单节点)

1.上传tar包2.解压 tar -zxvf hive-0.9.0.tar.gz -C /cloud/3.配置mysql metastore（切换到root用户）配置HIVE_HOME环境变量 rpm -qa | grep mysql rpm -e mysql-libs-5.1.66-2.el6_3.i686 --nodeps rpm

2015-05-31 20:14:22 2112

原创 hive入门

什么是Hive Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL ），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 QL ，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 ma

2015-05-31 12:33:27 795

转载 Hbase的java接口

public class HbaseDemo { private Configuration conf = null; @Before public void init(){ conf = HBaseConfiguration.create(); conf.set("hbase.zookeeper.quorum", "hadoop01,hadoop02,hadoop03");

2015-05-30 16:28:54 1047

原创 HBASE Shell

hbase提供了一个shell的终端给用户交互名称命令表达式创建表create '表名称', '列族名称1','列族名称2','列族名称N'添加记录 put '表名称', '行名称', '列名称:', '值'查看记录get '表名称', '行名称'

2015-05-30 15:58:26 820

原创 Hbase集群搭建

1.上传hbase安装包2.解压3.配置hbase集群，要修改3个文件（首先zk集群已经安装好了）【注意：要把hadoop的hdfs-site.xml和core-site.xml 放到hbase/conf下】 3.1修改hbase-env.sh export JAVA_HOME=/usr/java/jdk1.7.0_55 //告诉hbase使用外部的zk e

2015-05-30 09:42:22 628

转载 Hbase简介（很好的梳理材料）

一、简介 historystarted by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoop contrib2007.10 First useable Hbase2008.1 Hadoop become Apac

2015-05-30 08:47:09 2382

原创 sqoop简介及安装

一、sqoop简介 Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。二、sqoop安装1.上传sqoop(WinSCP)2.安装和配置在添加sqoop到环境变量将...

2015-05-29 00:31:50 739

原创 hadoop-2.4.1 集群搭建

hadoop2.0已经发布了稳定版本了，增加了很多特性，比如HDFS HA、YARN等。最新的hadoop-2.4.1又增加了YARN HA注意：apache提供的hadoop-2.4.1的安装包是在32位操作系统编译的，因为hadoop依赖一些C++的本地库，所以如果在64位的操作上安装hadoop-2.4.1就需要重新在64操作系统上重新编译集群搭建步骤：1.修改Lin

2015-05-28 14:20:03 644

原创 Zookeeper入门

一、什么是Zookeeper？ Zookeeper 是 Google 的 Chubby一个开源的实现，是 Hadoop 的分布式协调服务，它包含一个简单的原语集，分布式应用程序可以基于它实现同步服务，配置维护和命名服务等。二、为什么使用Zookeeper？ 1.大部分分布式应用需要一个主控、协调器或控制器来管理物理分布的子进程（如资源、任务分配等）

2015-05-27 19:28:42 550

原创 Hadoop之MapReduce-倒排索引案例

一、问题描述统计每个单词在各个文件中出现的次数。二、所给数据 1. 输入数据: a.txt: b.txt hello tom hello jerry hello jerry hello tom

2015-05-27 18:28:42 969

原创 Hadoop之MapReduce-自定义排序编程

一、问题描述根据给出的数据计算每一个用户总的收入，总的支出以及总利润，并按照总利润由高到低排序，如果总利润相同，则按照总的支出由高到低排序。二、数据格式 2.1输入数据格式 zhangsan@163.com 6000 0 2014-02-20 lisi@163.com 3000 2000

2015-05-26 21:03:49 768

原创 Hadoop之MapReduce-Partition编程

一、问题描述在Hadoop序列化案例（http://blog.csdn.net/gaijianwei/article/details/46004025）的基础上，将输出的数据按照手机号所属的运营商进行分区。二、问题实现 DataCount代码（只是对Hadoop序列化案例的DataCount代码稍作修改）package edu.jianwei.hadoop

2015-05-26 18:27:36 698

原创 Hadoop序列化案例

一、问题描述根据所给的数据输出每一个手机号上网的上载流量、下载流量和总流量。二、数据格式输入数据（部分）格式 1363157973098 15013685858 5C-0E-8B-C7-F7-90:CMCC 120.197.40.4 rank.ie.sogou.com 搜索引擎 28 27

2015-05-26 09:45:31 741

原创 Hadoop序列化

一、序列化概念 1 序列化（Serialization）是指把结构化对象转化为字节流。 2 反序列化（Deserialization）是序列化的逆过程。即把字节流转回结构化对象。 3 Java序列化（java.io.Serializable）。二、Hadoop序列化的特点 1 紧凑：高效使用存储空间。

2015-05-26 09:06:17 699

转载快速理解Docker - 容器级虚拟化解决方案

一、是什么简单的说Docker是一个构建在LXC之上的,基于进程容器(Processcontainer)的轻量级VM解决方案拿现实世界中货物的运输作类比,为了解决各种型号规格尺寸的货物在各种运输工具上进行运输的问题,我们发明了集装箱 Docker的初衷也就是将各种应用程序和他们所依赖的运行环境打包成标准的container/image,进而发布到不同的平台

2015-05-26 09:02:25 759

原创 Container技术初探

一、传统虚拟化技术二、system-level 虚拟化三、传统虚拟化技术与容器虚拟化的区别四、container核心技术

2015-05-24 16:51:25 1193

原创 Hadoop之MapReduce编程模型

一、MapReduce编程模型 MapReduce将作业的整个运行过程分为两个阶段：Map阶段和Reduce阶段 Map阶段由一定数量的Map Task组成输入数据格式解析：InputFormat 输入数据处理：Mapper 数据分组：Partitioner Redu

2015-05-24 14:36:47 8133 1

原创 Hadoop之MapReduce—Wordcount扩展

一、查看所给的数据文件 Case 1：整个文件可以加载到内存中； Case 2：文件太大不能加载到内存中，但可以存放到内存中； Case 3：文件太大无法加载到内存中，且也不行；二、问题规范化将问题范化为：有一批文件（规模为TB级或者 PB级），如何统计这些文件中所有单词出现的次数；方案：首先，分别统计每个文件中单词出现次数

2015-05-23 18:28:24 537

原创 Hadoop之MapReduce—Wordcount

一、问题描述场景：有大量文件，里面存储了单词任务：如何统计每个单词出现的次数？二、数据格式 2.1 输入数据 hello tom hello jerry hello kitty hello world hello tom 2.2 输出格式 hello 5

2015-05-23 17:51:02 757

原创 Hadoop之MapReduce概念

一、MapReduce概述 1.MapReduce是一种分布式计算模型，由Google提出，主要用于搜索领域，解决海量数据的计算问题. 2.MR由两个阶段组成：Map和Reduce，用户只需要实现map()和reduce()两个函数，即可实现分布式计算，非常简单。 3.这两个函数的形参是key、value对，表示函数的输入信息。二、Mapr

2015-05-23 16:50:46 1532

原创 Hadoop之HDFS的API

一、FileSystem类提供基本的文件处理功能 import org.apache.hadoop.fs.FileSystem Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(conf); core-site.xml: fs.de

2015-05-22 16:53:38 813

原创 Hadoop之HDFS文件读写过程

一、HDFS读过程 1.1 HDFS API 读文件 Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(conf); Path file = new Path("demo.txt"); FSDataInputStream inStream = fs.

2015-05-22 16:04:45 20345 2

原创 Hadoop之HDFS的Shell脚本命令总结

一、HDFS的Shell的基本概念 1.调用文件系统(FS)Shell命令应使用 bin/hadoop fs 命令或 bin/hdfs dfs 命令的形式。[为了简便，一般将bin目录添加到path中] 2.所有的FS shell命令使用URI路径作为参数。　 URI格式是scheme://authority/path。HDFS的scheme是hdfs，

2015-05-22 15:05:17 6246

原创 RPC基本概念

一、RPC简介 1.RPC——远程过程调用协议，它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。 2.RPC采用客户机/服务器模式。请求程序就是一个客户机，

2015-05-22 09:49:15 1870

原创 Hadoop之HDFS基本概念

1.分布式文件系统（Distributed File System）由来：数据量越来越多，在一个操作系统管辖的范围存不下了，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，因此迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。定义：是一种允许文件通过网络在多台主机上分享的文件系统，可让多机器上的多用户分享文件和存储空间。特点：通透性，让实际

2015-05-21 19:09:40 3651

原创 hadoop配置ssh免登陆原理

一、什么是SSH SSH是英文Secure Shell的简写形式。通过使用SSH，你可以把所有传输的数据进行加密，这样"中间人"这种攻击方式就不可能实现了，而且也能够防止DNS欺骗和IP欺骗。使用SSH，还有一个额外的好处就是传输的数据是经过压缩的，所以可以加快传输的速度。SSH有很多功能，它既可以代替Telnet，又可以为FTP、Pop、甚至为PPP提供一个安全的"通道"。二、主

2015-05-15 20:48:54 1038

原创 hadoop2.2.0伪分布式搭建

1.准备Linux环境 1.0点击VMware快捷方式，右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改 subnet ip 设置网段：192.168.1.0 子网掩码：255.255.255.0 -> apply -> ok 回到windows --> 打开网络和共享中心 -> 更改适配器设置 -> 右键

2015-05-15 20:34:10 404

原创 hadoop简介

1 hadoop是什么？ What Is Apache Hadoop? The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.2 解决问题：海量数据的存储（HDFS）海量数据的分析（MapReduce）资源管理调度（

2015-05-15 20:21:00 581

原创 Servlet入门

1.开发准备我的电脑-->属性

2014-05-15 10:56:14 711

原创 win7系统环境变量path默认值

yi系统环境变量path默认值系统环境变量path默认值是: %SystemRoot%\system32;%SystemRoot%;%SystemRoot%\System32\Wbem;

2014-04-25 17:45:25 33455 2

原创 Rational Rose2003 破解 win7

操作：１、安装Rational Rose2003时，在需选择安装项的时候，只选择Rational Rose EnterPrise Edition即可，不需选择其他项。２、安装好Rational Rose Enterprise Editon后，打开rose2003crack.rar压缩包，里面有四个文件，分别为flexlm.cpl、license.dat、lmgrd.exe、rational

2014-04-20 21:04:07 1134

转载需求分析的步骤

遵循科学的需求分析步骤可以使需求分析工作更高效。需求分析的一般步骤如图2-3所示。需求涉及的方面有很多。在功能方面，需求包括系统要做什么，相对于原系统目标系统需要进行哪些修改，目标用户有哪些，以及不同用户需要通过系统完成何种操作等。在性能方面，需求包括用户对于系统执行速度、响应时间、吞吐量和并发度等指标的要求。在运行环境方面，需求包括目标系统对于网络设置、硬件设备、温度和湿

2014-03-25 18:03:07 60785

转载统一建模语言UML基础专题之UML简介及用例图

UML-Unified Model Language 统一建模语言，又称标准建模语言。是用来对软件密集系统进行可视化建模的一种语言。在UML系统开发中有三个主要的模型：　　功能模型: 从用户的角度展示系统的功能，包括用例图。　　对象模型: 采用对象，属性，操作，关联等概念展示系统的结构和基础，包括类图、对象图、包图。　　动态模型: 展现系统的内部行为。包括

2014-03-19 19:43:15 1877 7

转载 Java与模型驱动架构(MDA)

在软件开发中，过去我们经常看到开发人员犯同样的错误。其中意义比较重大，并且长期以来存在着很大分歧的错误，就是应用架构是在特定平台和操作系统上写成的。这个错误在大型分布式应用中尤其显著。这种情况在最初时可能没什么问题，但是随着平台和操作系统的变化，特别是遇到不可预见的情况时，问题就暴露出来了。当然你可能还要依靠其他一些软件，例如应用服务器、浏览器或者数据库管理系统。在很多情况下，这些应用比底

2014-03-17 14:19:53 3767 1

转载 15 reasons why you should start using Model Driven Development

1. MDD is faster In Model-Driven Development the model of a software application is specified on a higher abstraction level than traditional programming languages. This model is automatically transfor

2014-03-16 14:20:35 704

转载使用模型驱动开发（MDD）的十五个理由

1、MDD开发更快速相比传统软件开发，模型驱动开发（MDD）的软件项目中，应用程序被指定为一个更高层次的抽象模型。通过对模型的解释/执行或产生的代码，抽象模型会自动转化为可工作的软件应用。在代码方面，因为模型具有更高的抽象层次，所以比相同实现的其他方式具有更小的代码量。换句话说，模型中的每个元素（符号或其它伪编程语言）可以代表多行代码；这样，我们可以在相同的时间内实现更多的功能。比如，对比

2014-03-16 14:10:01 3501

我的第一个JSP之helloworld

java基础ATM机课程设计

空空如也