- 博客(37)
- 资源 (36)
- 收藏
- 关注
转载 机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 2)
注:机器学习资料篇目一共500条,篇目二开始更新希望转载的朋友,你可以不用联系我.但是一定要保留原文链接,因为这个项目还在继续也在不定期更新.希望看到文章的朋友能够学到更多.此外:某些资料在中国访问需要梯子.《Image Scaling using Deep Convolutional Neural Networks》介绍:使用卷积神经网络的图像缩放.《
2016-05-31 17:30:00 2439
转载 机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 1)
机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 1)注:机器学习资料篇目一共500条,篇目二开始更新希望转载的朋友,你可以不用联系我.但是一定要保留原文链接,因为这个项目还在继续也在不定期更新.希望看到文章的朋友能够学到更多.此外:某些资料在中国访问需要梯子.《Brief History of Mac
2016-05-31 17:27:27 3125
转载 CentOS 6.4 编译安装 gcc 4.8.1
安装之前,还是提醒下大家:一些基本的准备工作我就不说了,比如得装个Linux(CentOS,Ubuntu等等),然后装上基本的编译环境,用较老的编译环境编译新的编译器,这叫自举(bootstrap)。如果编译的过程,提示出错,就按照提示去把环境装好,不再详细说明。1、下载gcc 4.8.1源码包:http://ftp.tsukuba.wide.ad.jp/software/gcc/
2016-05-31 09:36:46 433
转载 Hive安装配置
普及:什么是HIVEHive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL ,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapp
2016-05-30 14:46:07 2484 2
转载 Hadoop Hive安装,配置mysql元数据库
由于Hive依赖于Hadoop,安装Hive之前必须确认Hadoop可用,关于Hadoop的安装可以参考集群分布式 Hadoop安装详细步骤,这里不再叙述。1.下载Hive安装包 下载地址为:http://www.apache.org/dyn/closer.cgi/hive(或点击下面链接),选择一个稳定版本,假设下载的版本为:apache-hive-1.0.1-bin.tar
2016-05-30 14:43:17 575
转载 CentOS64位6.4下Hadoop2.7.1、Mysql5.5.46、Hive1.2.1、Spark1.5.0的集群环境部署
部署环境:CentOS 6.4 64bitHadoop2.7.1、Mysql5.5、Hive1.2.1、Scala2.11.7、Spark1.5.0jdk1.7.0_79 主机IP:master(namenode):10.10.4.115slave1(datanode):10.10.4.116slave2(datanode):10
2016-05-18 14:46:10 1052 1
转载 18大经典数据挖掘算法小结
本文所有涉及到的数据挖掘代码的都放在了我的github上了。地址链接: https://github.com/linyiqun/DataMiningAlgorithm大概花了将近2个月的时间,自己把18大数据挖掘的经典算法进行了学习并且进行了代码实现,涉及到了决策分类,聚类,链接挖掘,关联挖掘,模式挖掘等等方面。也算是对数据挖掘领域的小小入门了吧。下面就做个小小的总结,后面都是我自
2016-05-12 19:43:49 1133
转载 基于Hadoop的数据仓库Hive 学习指南
【版权声明:本指南为厦门大学林子雨开设的《大数据技术原理与应用》课程新增配套学习资料,版权所有,转载请注明出处,请勿用于商业用途】本指南介绍了Hive,并详细指引读者安装Hive。 前面第几章学习指南已经指导大家安装Linux操作系统,并安装配置了Hadoop,但是这只表明我们已经安装好了Hadoop分布式文件系统,而Hive需要另外下载安装,本指南就是详细指导大家安装并配置Hive,完成
2016-05-12 19:43:36 8737
转载 25个Java机器学习工具&库
本列表总结了25个Java机器学习工具&库:1. Weka集成了数据挖掘工作的机器学习算法。这些算法可以直接应用于一个数据集上或者你可以自己编写代码来调用。Weka包括一系列的工具,如数据预处理、分类、回归、聚类、关联规则以及可视化。2.Massive Online Analysis(MOA)是一个面向数据流挖掘的流行开源框架,有着非常活跃的成长社区。它包括一系列的机器学习算法(分
2016-05-12 19:43:15 505
转载 eclipse/intellij idea 远程调试hadoop 2.6.0
很多hadoop初学者估计都我一样,由于没有足够的机器资源,只能在虚拟机里弄一个linux安装hadoop的伪分布,然后在host机上win7里使用eclipse或Intellj idea来写代码测试,那么问题来了,win7下的eclipse或intellij idea如何远程提交map/reduce任务到远程hadoop,并断点调试?一、准备工作1.1 在win7中,找一个目录,
2016-05-12 19:42:53 1531
转载 Win7+Eclipse+Hadoop2.6.4开发环境搭建
Hadoop开发环境搭建感谢参考网站:http://www.cnblogs.com/huligong1234/p/4137133.html一、软件准备JDK:jdk-7u80-windows-x64.exehttp://www.oracle.com/technetwork/java/javase/archive-139210.htmlEclipse:ecli
2016-05-11 10:00:27 3164
转载 win7下Eclipse开发Hadoop应用程序环境搭建
写这篇文章只是大概记录一下,安装的步骤以及问题 安装hadoop步骤 1、实现linux的ssh无密码验证配置.(如果不是分布式模式,这一步其实可以不那么强求) 2、在linux下安装jdk,并配好环境变量 3、修改linux的机器名,并配置 /etc/hosts 4、在windows下下载hadoop 1.0.4(其他版本也行,但是这个版本是一个稳定
2016-05-10 20:23:09 1616
转载 CentOS上hadoop伪分布式配置
Hadoop是用作处理大数据用的,核心是HDFS、Map/Reduce。虽然目前工作中不需要使用这个,但是,技多不压身,经过虚拟机很多遍的尝试,终于将Hadoop2.5.2的环境顺利搭建起来了。 首先准备一个CentOS,将主机名改为master,并且在/etc/hosts里面加入master对应的本机ip地址。Linux基本配置?
2016-05-10 19:57:22 567
转载 [一起学Hive]之二十-自定义HiveServer2的用户安全认证
HiveServer2提供了JDBC链接操作Hive的功能,非常实用,但如果在使用HiveServer2时候,不注意安全控制,将非常危险,因为任何人都可以作为超级用户来操作Hive及HDFS数据。比如:在配置HiveServer2的时候,hive.server2.authentication=NONE,表示没有用户认证。使用beeline,模拟成超级用户hadoop,成功连接到
2016-05-06 10:46:49 5083
转载 [一起学Hive]之十九-使用Hive API分析HQL的执行计划、Job数量和表的血缘关系
本文介绍使用Hive的API获取一条HQL的最终执行计划,从而获取这条HQL的Job数量,另外,介绍使用API分析一条HQL中所包含的输入表和输出表。这些信息在做元数据管理和Hive表的血缘分析时候很有用。Hive在执行一条HQL的时候,会经过以下步骤:语法解析:Antlr定义SQL的语法规则,完成SQL词法,语法解析,将SQL转化为抽象 语法树AST Tree;语义解析:遍历AS
2016-05-06 10:46:07 1596
转载 [一起学Hive]之十八-Hive UDF开发
Hive中,除了提供丰富的内置函数(见[一起学Hive]之二–Hive函数大全-完整版)之外,还允许用户使用Java开发自定义的UDF函数。开发自定义UDF函数有两种方式,一个是继承org.apache.hadoop.hive.ql.exec.UDF,另一个是继承org.apache.hadoop.hive.ql.udf.generic.GenericUDF;如果是针对简单的数据类
2016-05-06 10:45:25 819
转载 [一起学Hive]之十七-从Hive表中进行数据抽样-Sampling
在Hive中提供了数据取样(SAMPLING)的功能,用来从Hive表中根据一定的规则进行数据取样,Hive中的数据取样支持分桶表取样和数据块取样。16.1 数据块取样(Block Sampling)block_sample: TABLESAMPLE (n PERCENT)根据输入的inputSize,取样n%。比如:输入大小为1G,TABLESAMPLE (50
2016-05-06 10:43:19 855
转载 [一起学Hive]之十六-Hive的WEB页面接口-HWI
Hive提供给用户的交互接口一般有三种:Hive命令行(Hive Command Line)、JDBC/ODBC以及Hive WEB Interface(HWI)。对于开发者来说,最常用的是Hive命令行。如果是将Hive开放给数据分析或数据运营人员做即席查询,那么使用Hive WEB页面接口(HWI)应该是比较方便的。本章就介绍一下Hive WEB页面接口(HWI)的配置和使用。以Hiv
2016-05-06 10:42:30 1323
转载 [一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics)
类似于Oracle的分析表,Hive中也提供了分析表和分区的功能,通过自动和手动分析Hive表,将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括:行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等;14.1 新表的统计信息对于一个新创建的表,默认情况下,如果通过INSERT OVERWRITE的方式插入数据,那么Hive会自动将该表或分区的统计
2016-05-06 10:40:38 2823
转载 [一起学Hive]之十四-Hive的元数据表结构详解
之前在 “[一起学Hive]之一–Hive概述,Hive是什么”中介绍过,Hive自己维护了一套元数据,用户通过HQL查询时候,Hive首先需要结合元数据,将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途,以Hive0.13为例。文章最后面,会以一个示例来全面了解一下,Hive的元数据是怎么生成和存储的。13.1 存储Hive版本的
2016-05-06 10:39:47 1317
转载 [一起学Hive]之十三-Hive整合HBase,操作HBase表
十二、Hive整合HBase,操作HBase表HBase是被设计用来做k-v查询的,但有时候,也会遇到基于HBase表的复杂统计,写MR很不方便。Hive考虑到了这点,提供了操作HBase表的接口。关于Hive操作HBase表的原理,请参考我之前的博文: http://lxw1234.com/archives/2015/04/101.htm值得商榷的
2016-05-06 10:38:56 1048 1
转载 [一起学Hive]之十二-Hive SQL的优化
十一、Hive SQL的优化 本章只是从HQL层面介绍一下,日常开发HQL中需要注意的一些优化点,不涉及Hadoop层面的参数、配置等优化。其中大部分是我之前发过的博客文章,这里整理了下。11.1 使用分区剪裁、列剪裁在SELECT中,只拿需要的列,如果有,尽量使用分区过滤,少用SELECT *。在分区剪裁中,当使用外关联时,如果将副表的过滤条件写在
2016-05-06 10:38:08 393
转载 [一起学Hive]之十一-Hive中Join的类型和用法
Hive中除了支持和传统数据库中一样的内关联、左关联、右关联、全关联,还支持LEFT SEMI JOIN和CROSS JOIN,但这两种JOIN类型也可以用前面的代替。注意:Hive中Join的关联键必须在ON ()中指定,不能在Where中指定,否则就会先做笛卡尔积,再过滤。数据准备:hive> desc lxw1234_a;OKid
2016-05-06 10:37:28 787
转载 [一起学Hive]之十-Hive中Join的原理和机制
九、Hive中Join的原理和机制笼统的说,Hive中的Join可分为Common Join(Reduce阶段完成join)和Map Join(Map阶段完成join)。本文简单介绍一下两种join的原理和机制。9.1 Hive Common Join如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common Join,即:
2016-05-06 10:36:35 486
转载 [一起学Hive]之九-Hive的查询语句SELECT
八、Hive的查询语句SELECT在所有的数据库系统中,SELECT语句是使用最多,也最复杂的一块,Hive中的查询语句SELECT支持的语法当然也比较复杂,本文只能尽力去介绍。8.1 基础查询语法Hive中的SELECT基础语法和标准SQL语法基本一致,支持WHERE、DISTINCT、GROUP BY、ORDER BY、HAVING、LIMIT、子查询等;语法如下:
2016-05-06 10:35:50 2775
转载 [一起学Hive]之八-使用Hive命令行
Hive提供的几种用户交互接口中,最常用的就是命令行接口。本文简单介绍一下Hive命令行接口(Hive Command Line)及Hive交互Shell(Hive Interactive Shell)的一些使用。七、使用Hive命令行7.1 Hive Command Line输入$HIVE_HOME/bin/hive –H 或者 –help可以显示帮助选项:
2016-05-06 10:35:05 1003
转载 [一起学Hive]之七-向Hive表中加载数据
在Hive中建好表之后,需要将数据加载进来,以便做后续查询分析,本文介绍向Hive表中加载数据的几种方式。6.1 建表时候直接指定如果你的数据已经在HDFS上存在,已经为结构化数据,并且数据所在的HDFS路径不需要维护,那么可以直接在建表的时候使用location指定数据所在的HDFS路径即可。比如: CREATE [EXTERNAL] TABLE t_lxw1234
2016-05-06 10:34:33 824
转载 [一起学Hive]之六-Hive的动态分区
前面文章介绍了Hive中是支持分区的。关系型数据库(如Oracle)中,对分区表Insert数据时候,数据库自动会根据分区字段的值,将数据插入到相应的分区中,Hive中也提供了类似的机制,即动态分区(Dynamic Partition),只不过,使用Hive的动态分区,需要进行相应的配置。先看一个应用场景,源表t_lxw1234的数据如下: SELECT day,ur
2016-05-06 10:34:00 322
转载 [一起学Hive]之五-Hive的视图和分区
同关系型数据库一样,Hive中也支持视图(View)和分区(Partition),但与关系型数据库中的有所区别,本文简单介绍Hive中视图和分区的示例。在真实业务场景下,视图的应用比较少,分区使用的非常多,因此建议对分区这块多花的时间来了解。 四、Hive的视图和分区4.1 Hive中的视图和关系型数据库一样,Hive中也提供了视图的功能,注意Hive中视图
2016-05-06 10:32:15 580
转载 [一起学Hive]之四-Hive的安装配置
其实Hive的安装配置应该放在第二章来介绍,晚了些,希望对Hive初学者有用。三、Hive的安装配置3.1 环境需求Hadoop ClientMysql3.2 下载并解压Hive0.13.1安装包下载地址:http://archive.apache.org/dist/hive/hive-0.13.1/apache-hive-0.13.1-bin.tar.gz
2016-05-06 10:31:08 467
转载 [一起学Hive]之三–Hive中的数据库(Database)和表(Table)
在前面的文章中,介绍了可以把Hive当成一个“数据库”,它也具备传统数据库的数据单元,数据库(Database/Schema)和表(Table)。本文介绍一下Hive中的数据库(Database/Schema)和表(Table)的基础知识,由于篇幅原因,这里只是一些常用的、基础的。二、Hive的数据库和表先看一张草图:Hive结构从图上可以看出,Hi
2016-05-06 10:30:18 1927
转载 [一起学Hive]之二–Hive函数大全-完整版
Hive函数大全–完整版现在虽然有很多SQL ON Hadoop的解决方案,像Spark SQL、Impala、Presto等等,但就目前来看,在基于Hadoop的大数据分析平台、数据仓库中,Hive仍然是不可替代的角色。尽管它的相应延迟大,尽管它启动MapReduce的时间相当长,但是它太方便、功能太强大了,做离线批量计算、ad-hoc查询甚至是实现数据挖掘算法,而且,和HBase、Sp
2016-05-06 10:29:19 998
转载 [一起学Hive]之一–Hive概述,Hive是什么
1. Hive是什么Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的数据仓库也秉承了这些特性。这是来自官方的解释。简单来说,Hive就是在Hadoop上架了一层SQL接口,可以将SQL翻译成MapReduce去Hadoop上执行,这样就使得数据开发和分析人员很方便的使用SQL来完成海量数
2016-05-06 10:28:02 541
转载 “多变量分析”——数据挖掘、数据分析
I。多重对应分析 多重对应分析在超过两个以上定类变量时有时候非常有效,当然首先我们要理解并思考,如果只有三个或有限的几个变量完全可以通过数据变换和交互表变量重组可以转换成两个定类变量,这时候就可以用简单对应分析了。对应分析对数据的格式要求:对应分析数据的典型格式是列联表或交叉频数表。常表示不同背景的消费者对若干产品或产品的属性的选择频率。背景变量或属性变量可以并
2016-05-03 17:07:40 110343 3
转载 基于分布式架构的大数据商业建模
今天给大家主要分享两个部分:第一个部分会给大家介绍一下百分点基于分布式架构的大数据建模实践。在这一部分我会主要讲一下建模的技术架构、一些技术、工具以及大数据建模的流程9宫格。第二个部分我会给大家介绍一下大数据建模的应用场景,以及百分点做过的一个真实企业建模相关的应用场景。1. 基于分布式架构的大数据建模实践我们看到大数据时代的到来,数据的量,数据的源都发生了
2016-05-03 16:42:25 4680
转载 回归分析的七种武器
导读:本文解释了回归分析及其优势,重点总结了应该掌握的线性回归、逻辑回归、多项式回归、逐步回归、岭回归、套索回归、ElasticNet回归等七种最常用的回归技术及其关键要素,最后介绍了选择正确的回归模型的关键因素什么是回归分析?回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因
2016-05-03 10:40:11 1742
jdk1.6、spring3.0、hibernate4.0源码
2016-01-05
OFBiz开发快速入门
2015-08-05
Oracle技术大牛整理常见问题
2015-08-04
spring3.0API.chm、hibernate3.6API、struts2API
2015-08-01
从零开始jsp动态网页制作基础培训教程
2008-11-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人