tony的专栏

好好学习,多多益善

机器学习资源大全中文版

https://github.com/jobbole/awesome-machine-learning-cn

2016-05-31 19:52:05

阅读数 503

评论数 0

机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 2)

注:机器学习资料篇目一共500条,篇目二开始更新 希望转载的朋友,你可以不用联系我.但是一定要保留原文链接,因为这个项目还在继续也在不定期更新.希望看到文章的朋友能够学到更多.此外:某些资料在中国访问需要梯子. 《Image Scaling using Deep Convo...

2016-05-31 17:30:00

阅读数 2119

评论数 0

机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 1)

机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 1) 注:机器学习资料篇目一共500条,篇目二开始更新 希望转载的朋友,你可以不用联系我.但是一定要保留原文链接,因为这个项目还在继续也在不定期更新.希望看到文...

2016-05-31 17:27:27

阅读数 2243

评论数 0

CentOS 6.4 编译安装 gcc 4.8.1

安装之前,还是提醒下大家:一些基本的准备工作我就不说了,比如得装个Linux(CentOS,Ubuntu等等),然后装上基本的编译环境,用较老的编译环境编译新的编译器,这叫自举(bootstrap)。如果编译的过程,提示出错,就按照提示去把环境装好,不再详细说明。 1、下载gcc 4.8.1源码...

2016-05-31 09:36:46

阅读数 244

评论数 0

Hive安装配置

普及:什么是HIVE Hive 是建立在 Hadoop  上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop  中的大规模数据的机制。Hive 定义了简单的类 SQL  查询语言,称为 QL ,它允许熟悉 S...

2016-05-30 14:46:07

阅读数 2202

评论数 2

Hadoop Hive安装,配置mysql元数据库

由于Hive依赖于Hadoop,安装Hive之前必须确认Hadoop可用,关于Hadoop的安装可以参考集群分布式 Hadoop安装详细步骤,这里不再叙述。 1.下载Hive安装包    下载地址为:http://www.apache.org/dyn/closer.cgi/hive(或...

2016-05-30 14:43:17

阅读数 438

评论数 0

CentOS64位6.4下Hadoop2.7.1、Mysql5.5.46、Hive1.2.1、Spark1.5.0的集群环境部署

部署环境: CentOS 6.4 64bit Hadoop2.7.1、Mysql5.5、Hive1.2.1、Scala2.11.7、Spark1.5.0 jdk1.7.0_79   主机IP: master(namenode):10.10.4.115 ...

2016-05-18 14:46:10

阅读数 910

评论数 1

18大经典数据挖掘算法小结

本文所有涉及到的数据挖掘代码的都放在了我的github上了。 地址链接: https://github.com/linyiqun/DataMiningAlgorithm 大概花了将近2个月的时间,自己把18大数据挖掘的经典算法进行了学习并且进行了代码实现,涉及到了决策分类,聚类,链接挖掘,关联...

2016-05-12 19:43:49

阅读数 991

评论数 0

基于Hadoop的数据仓库Hive 学习指南

【版权声明:本指南为厦门大学林子雨开设的《大数据技术原理与应用》课程新增配套学习资料,版权所有,转载请注明出处,请勿用于商业用途】 本指南介绍了Hive,并详细指引读者安装Hive。 前面第几章学习指南已经指导大家安装Linux操作系统,并安装配置了Hadoop,但是这只表明我们已经安装好了Ha...

2016-05-12 19:43:36

阅读数 7529

评论数 0

25个Java机器学习工具&库

本列表总结了25个Java机器学习工具&库: 1. Weka集成了数据挖掘工作的机器学习算法。这些算法可以直接应用于一个数据集上或者你可以自己编写代码来调用。Weka包括一系列的工具,如数据预处理、分类、回归、聚类、关联规则以及可视化。 2.Massive Online Analysi...

2016-05-12 19:43:15

阅读数 348

评论数 0

eclipse/intellij idea 远程调试hadoop 2.6.0

很多hadoop初学者估计都我一样,由于没有足够的机器资源,只能在虚拟机里弄一个linux安装hadoop的伪分布,然后在host机上win7里使用eclipse或Intellj idea来写代码测试,那么问题来了,win7下的eclipse或intellij idea如何远程提交map/redu...

2016-05-12 19:42:53

阅读数 1272

评论数 0

Win7+Eclipse+Hadoop2.6.4开发环境搭建

Hadoop开发环境搭建 感谢参考网站:http://www.cnblogs.com/huligong1234/p/4137133.html 一、软件准备 JDK:jdk-7u80-windows-x64.exe http://www.oracle.com/technetw...

2016-05-11 10:00:27

阅读数 3015

评论数 0

win7下Eclipse开发Hadoop应用程序环境搭建

写这篇文章只是大概记录一下,安装的步骤以及问题   安装hadoop步骤     1、实现linux的ssh无密码验证配置.(如果不是分布式模式,这一步其实可以不那么强求)     2、在linux下安装jdk,并配好环境变量     3、修改linux的机器名,并配置 /etc/host...

2016-05-10 20:23:09

阅读数 1394

评论数 0

CentOS上hadoop伪分布式配置

Hadoop是用作处理大数据用的,核心是HDFS、Map/Reduce。虽然目前工作中不需要使用这个,但是,技多不压身,经过虚拟机很多遍的尝试,终于将Hadoop2.5.2的环境顺利搭建起来了。        首先准备一个CentOS,将主机名改为master,并且在/etc/hosts...

2016-05-10 19:57:22

阅读数 429

评论数 0

[一起学Hive]之二十-自定义HiveServer2的用户安全认证

HiveServer2提供了JDBC链接操作Hive的功能,非常实用,但如果在使用HiveServer2时候,不注意安全控制,将非常危险,因为任何人都可以作为超级用户来操作Hive及HDFS数据。 比如:在配置HiveServer2的时候,hive.server2.authentication=...

2016-05-06 10:46:49

阅读数 3090

评论数 0

[一起学Hive]之十九-使用Hive API分析HQL的执行计划、Job数量和表的血缘关系

本文介绍使用Hive的API获取一条HQL的最终执行计划,从而获取这条HQL的Job数量,另外,介绍使用API分析一条HQL中所包含的输入表和输出表。这些信息在做元数据管理和Hive表的血缘分析时候很有用。 Hive在执行一条HQL的时候,会经过以下步骤: 语法解析:Antlr定义SQ...

2016-05-06 10:46:07

阅读数 791

评论数 0

[一起学Hive]之十八-Hive UDF开发

Hive中,除了提供丰富的内置函数(见[一起学Hive]之二–Hive函数大全-完整版)之外,还允许用户使用Java开发自定义的UDF函数。 开发自定义UDF函数有两种方式,一个是继承org.apache.hadoop.hive.ql.exec.UDF,另一个是继承org.apache.ha...

2016-05-06 10:45:25

阅读数 315

评论数 0

[一起学Hive]之十七-从Hive表中进行数据抽样-Sampling

在Hive中提供了数据取样(SAMPLING)的功能,用来从Hive表中根据一定的规则进行数据取样,Hive中的数据取样支持分桶表取样和数据块取样。 16.1 数据块取样(Block Sampling) block_sample: TABLESAMPLE (n PERCENT) ...

2016-05-06 10:43:19

阅读数 686

评论数 0

[一起学Hive]之十六-Hive的WEB页面接口-HWI

Hive提供给用户的交互接口一般有三种:Hive命令行(Hive Command Line)、JDBC/ODBC以及Hive WEB Interface(HWI)。对于开发者来说,最常用的是Hive命令行。如果是将Hive开放给数据分析或数据运营人员做即席查询,那么使用Hive WEB页面接口(H...

2016-05-06 10:42:30

阅读数 1005

评论数 0

[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics)

类似于Oracle的分析表,Hive中也提供了分析表和分区的功能,通过自动和手动分析Hive表,将Hive表的一些统计信息存储到元数据中。 表和分区的统计信息主要包括:行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等; 14.1 新表的统计信息 对于一个新创建的表,默...

2016-05-06 10:40:38

阅读数 1695

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭