2016年05月_achuo

12月 11月 07月 06月 05月 04月 03月 02月 01月

转载机器学习资源大全中文版

https://github.com/jobbole/awesome-machine-learning-cn

2016-05-31 19:52:05 618

转载机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 2)

注:机器学习资料篇目一共500条,篇目二开始更新希望转载的朋友，你可以不用联系我．但是一定要保留原文链接，因为这个项目还在继续也在不定期更新．希望看到文章的朋友能够学到更多．此外:某些资料在中国访问需要梯子.《Image Scaling using Deep Convolutional Neural Networks》介绍:使用卷积神经网络的图像缩放.《

2016-05-31 17:30:00 2439

转载机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 1)

机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 1)注:机器学习资料篇目一共500条,篇目二开始更新希望转载的朋友，你可以不用联系我．但是一定要保留原文链接，因为这个项目还在继续也在不定期更新．希望看到文章的朋友能够学到更多．此外:某些资料在中国访问需要梯子.《Brief History of Mac

2016-05-31 17:27:27 3125

转载 CentOS 6.4 编译安装 gcc 4.8.1

安装之前，还是提醒下大家：一些基本的准备工作我就不说了，比如得装个Linux（CentOS，Ubuntu等等），然后装上基本的编译环境，用较老的编译环境编译新的编译器，这叫自举（bootstrap）。如果编译的过程，提示出错，就按照提示去把环境装好，不再详细说明。1、下载gcc 4.8.1源码包：http://ftp.tsukuba.wide.ad.jp/software/gcc/

2016-05-31 09:36:46 433

转载 Hive安装配置

普及：什么是HIVEHive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL ），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 QL ，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapp

2016-05-30 14:46:07 2484 2

转载 Hadoop Hive安装，配置mysql元数据库

由于Hive依赖于Hadoop，安装Hive之前必须确认Hadoop可用，关于Hadoop的安装可以参考集群分布式 Hadoop安装详细步骤，这里不再叙述。1.下载Hive安装包　　下载地址为：http://www.apache.org/dyn/closer.cgi/hive（或点击下面链接），选择一个稳定版本，假设下载的版本为：apache-hive-1.0.1-bin.tar

2016-05-30 14:43:17 575

转载 CentOS64位6.4下Hadoop2.7.1、Mysql5.5.46、Hive1.2.1、Spark1.5.0的集群环境部署

部署环境：CentOS 6.4 64bitHadoop2.7.1、Mysql5.5、Hive1.2.1、Scala2.11.7、Spark1.5.0jdk1.7.0_79 主机IP：master（namenode）：10.10.4.115slave1（datanode）：10.10.4.116slave2（datanode）：10

2016-05-18 14:46:10 1052 1

转载 18大经典数据挖掘算法小结

本文所有涉及到的数据挖掘代码的都放在了我的github上了。地址链接: https://github.com/linyiqun/DataMiningAlgorithm大概花了将近2个月的时间，自己把18大数据挖掘的经典算法进行了学习并且进行了代码实现，涉及到了决策分类，聚类，链接挖掘，关联挖掘，模式挖掘等等方面。也算是对数据挖掘领域的小小入门了吧。下面就做个小小的总结，后面都是我自

2016-05-12 19:43:49 1133

转载基于Hadoop的数据仓库Hive 学习指南

2016-05-12 19:43:36 8737

转载 25个Java机器学习工具&库

本列表总结了25个Java机器学习工具&库：1. Weka集成了数据挖掘工作的机器学习算法。这些算法可以直接应用于一个数据集上或者你可以自己编写代码来调用。Weka包括一系列的工具，如数据预处理、分类、回归、聚类、关联规则以及可视化。2.Massive Online Analysis（MOA）是一个面向数据流挖掘的流行开源框架，有着非常活跃的成长社区。它包括一系列的机器学习算法（分

2016-05-12 19:43:15 505

转载 eclipse/intellij idea 远程调试hadoop 2.6.0

很多hadoop初学者估计都我一样，由于没有足够的机器资源，只能在虚拟机里弄一个linux安装hadoop的伪分布，然后在host机上win7里使用eclipse或Intellj idea来写代码测试，那么问题来了，win7下的eclipse或intellij idea如何远程提交map/reduce任务到远程hadoop，并断点调试？一、准备工作1.1 在win7中，找一个目录，

2016-05-12 19:42:53 1531

转载 Win7+Eclipse+Hadoop2.6.4开发环境搭建

Hadoop开发环境搭建感谢参考网站：http://www.cnblogs.com/huligong1234/p/4137133.html一、软件准备JDK：jdk-7u80-windows-x64.exehttp://www.oracle.com/technetwork/java/javase/archive-139210.htmlEclipse：ecli

2016-05-11 10:00:27 3164

转载 win7下Eclipse开发Hadoop应用程序环境搭建

写这篇文章只是大概记录一下，安装的步骤以及问题安装hadoop步骤 1、实现linux的ssh无密码验证配置.（如果不是分布式模式，这一步其实可以不那么强求） 2、在linux下安装jdk，并配好环境变量 3、修改linux的机器名，并配置 /etc/hosts 4、在windows下下载hadoop 1.0.4（其他版本也行，但是这个版本是一个稳定

2016-05-10 20:23:09 1616

转载 CentOS上hadoop伪分布式配置

Hadoop是用作处理大数据用的，核心是HDFS、Map/Reduce。虽然目前工作中不需要使用这个，但是，技多不压身，经过虚拟机很多遍的尝试，终于将Hadoop2.5.2的环境顺利搭建起来了。首先准备一个CentOS，将主机名改为master，并且在/etc/hosts里面加入master对应的本机ip地址。Linux基本配置?

2016-05-10 19:57:22 567

转载 [一起学Hive]之二十-自定义HiveServer2的用户安全认证

HiveServer2提供了JDBC链接操作Hive的功能，非常实用，但如果在使用HiveServer2时候，不注意安全控制，将非常危险，因为任何人都可以作为超级用户来操作Hive及HDFS数据。比如：在配置HiveServer2的时候，hive.server2.authentication=NONE，表示没有用户认证。使用beeline，模拟成超级用户hadoop，成功连接到

2016-05-06 10:46:49 5083

转载 [一起学Hive]之十九-使用Hive API分析HQL的执行计划、Job数量和表的血缘关系

本文介绍使用Hive的API获取一条HQL的最终执行计划，从而获取这条HQL的Job数量，另外，介绍使用API分析一条HQL中所包含的输入表和输出表。这些信息在做元数据管理和Hive表的血缘分析时候很有用。Hive在执行一条HQL的时候，会经过以下步骤：语法解析：Antlr定义SQL的语法规则，完成SQL词法，语法解析，将SQL转化为抽象语法树AST Tree；语义解析：遍历AS

2016-05-06 10:46:07 1596

转载 [一起学Hive]之十八-Hive UDF开发

Hive中，除了提供丰富的内置函数（见[一起学Hive]之二–Hive函数大全-完整版）之外，还允许用户使用Java开发自定义的UDF函数。开发自定义UDF函数有两种方式，一个是继承org.apache.hadoop.hive.ql.exec.UDF，另一个是继承org.apache.hadoop.hive.ql.udf.generic.GenericUDF；如果是针对简单的数据类

2016-05-06 10:45:25 819

转载 [一起学Hive]之十七-从Hive表中进行数据抽样-Sampling

在Hive中提供了数据取样（SAMPLING）的功能，用来从Hive表中根据一定的规则进行数据取样，Hive中的数据取样支持分桶表取样和数据块取样。16.1 数据块取样（Block Sampling）block_sample: TABLESAMPLE (n PERCENT)根据输入的inputSize，取样n%。比如：输入大小为1G，TABLESAMPLE (50

2016-05-06 10:43:19 855

转载 [一起学Hive]之十六-Hive的WEB页面接口-HWI

Hive提供给用户的交互接口一般有三种：Hive命令行(Hive Command Line)、JDBC/ODBC以及Hive WEB Interface（HWI）。对于开发者来说，最常用的是Hive命令行。如果是将Hive开放给数据分析或数据运营人员做即席查询，那么使用Hive WEB页面接口(HWI)应该是比较方便的。本章就介绍一下Hive WEB页面接口(HWI)的配置和使用。以Hiv

2016-05-06 10:42:30 1323

转载 [一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics)

类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等；14.1 新表的统计信息对于一个新创建的表，默认情况下，如果通过INSERT OVERWRITE的方式插入数据，那么Hive会自动将该表或分区的统计

2016-05-06 10:40:38 2823

转载 [一起学Hive]之十四-Hive的元数据表结构详解

之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，Hive的元数据是怎么生成和存储的。13.1 存储Hive版本的

2016-05-06 10:39:47 1317

转载 [一起学Hive]之十三-Hive整合HBase，操作HBase表

十二、Hive整合HBase，操作HBase表HBase是被设计用来做k-v查询的，但有时候，也会遇到基于HBase表的复杂统计，写MR很不方便。Hive考虑到了这点，提供了操作HBase表的接口。关于Hive操作HBase表的原理，请参考我之前的博文： http://lxw1234.com/archives/2015/04/101.htm值得商榷的

2016-05-06 10:38:56 1048 1

转载 [一起学Hive]之十二-Hive SQL的优化

十一、Hive SQL的优化本章只是从HQL层面介绍一下，日常开发HQL中需要注意的一些优化点，不涉及Hadoop层面的参数、配置等优化。其中大部分是我之前发过的博客文章，这里整理了下。11.1 使用分区剪裁、列剪裁在SELECT中，只拿需要的列，如果有，尽量使用分区过滤，少用SELECT *。在分区剪裁中，当使用外关联时，如果将副表的过滤条件写在

2016-05-06 10:38:08 393

转载 [一起学Hive]之十一-Hive中Join的类型和用法

Hive中除了支持和传统数据库中一样的内关联、左关联、右关联、全关联，还支持LEFT SEMI JOIN和CROSS JOIN，但这两种JOIN类型也可以用前面的代替。注意：Hive中Join的关联键必须在ON ()中指定，不能在Where中指定，否则就会先做笛卡尔积，再过滤。数据准备：hive> desc lxw1234_a;OKid

2016-05-06 10:37:28 787

转载 [一起学Hive]之十-Hive中Join的原理和机制

九、Hive中Join的原理和机制笼统的说，Hive中的Join可分为Common Join（Reduce阶段完成join）和Map Join（Map阶段完成join）。本文简单介绍一下两种join的原理和机制。9.1 Hive Common Join如果不指定MapJoin或者不符合MapJoin的条件，那么Hive解析器会将Join操作转换成Common Join,即：

2016-05-06 10:36:35 486

转载 [一起学Hive]之九-Hive的查询语句SELECT

八、Hive的查询语句SELECT在所有的数据库系统中，SELECT语句是使用最多，也最复杂的一块，Hive中的查询语句SELECT支持的语法当然也比较复杂，本文只能尽力去介绍。8.1 基础查询语法Hive中的SELECT基础语法和标准SQL语法基本一致，支持WHERE、DISTINCT、GROUP BY、ORDER BY、HAVING、LIMIT、子查询等；语法如下：

2016-05-06 10:35:50 2775

转载 [一起学Hive]之八-使用Hive命令行

Hive提供的几种用户交互接口中，最常用的就是命令行接口。本文简单介绍一下Hive命令行接口(Hive Command Line)及Hive交互Shell(Hive Interactive Shell)的一些使用。七、使用Hive命令行7.1 Hive Command Line输入$HIVE_HOME/bin/hive –H 或者 –help可以显示帮助选项：

2016-05-06 10:35:05 1003

转载 [一起学Hive]之七-向Hive表中加载数据

在Hive中建好表之后，需要将数据加载进来，以便做后续查询分析，本文介绍向Hive表中加载数据的几种方式。6.1 建表时候直接指定如果你的数据已经在HDFS上存在，已经为结构化数据，并且数据所在的HDFS路径不需要维护，那么可以直接在建表的时候使用location指定数据所在的HDFS路径即可。比如： CREATE [EXTERNAL] TABLE t_lxw1234

2016-05-06 10:34:33 824

转载 [一起学Hive]之六-Hive的动态分区

前面文章介绍了Hive中是支持分区的。关系型数据库（如Oracle）中，对分区表Insert数据时候，数据库自动会根据分区字段的值，将数据插入到相应的分区中，Hive中也提供了类似的机制，即动态分区(Dynamic Partition)，只不过，使用Hive的动态分区，需要进行相应的配置。先看一个应用场景，源表t_lxw1234的数据如下： SELECT day,ur

2016-05-06 10:34:00 322

转载 [一起学Hive]之五-Hive的视图和分区

同关系型数据库一样，Hive中也支持视图(View)和分区(Partition)，但与关系型数据库中的有所区别，本文简单介绍Hive中视图和分区的示例。在真实业务场景下，视图的应用比较少，分区使用的非常多，因此建议对分区这块多花的时间来了解。四、Hive的视图和分区4.1 Hive中的视图和关系型数据库一样，Hive中也提供了视图的功能，注意Hive中视图

2016-05-06 10:32:15 580

转载 [一起学Hive]之四-Hive的安装配置

其实Hive的安装配置应该放在第二章来介绍，晚了些，希望对Hive初学者有用。三、Hive的安装配置3.1 环境需求Hadoop ClientMysql3.2 下载并解压Hive0.13.1安装包下载地址：http://archive.apache.org/dist/hive/hive-0.13.1/apache-hive-0.13.1-bin.tar.gz

2016-05-06 10:31:08 467

转载 [一起学Hive]之三–Hive中的数据库(Database)和表(Table)

在前面的文章中，介绍了可以把Hive当成一个“数据库”，它也具备传统数据库的数据单元，数据库（Database/Schema）和表（Table）。本文介绍一下Hive中的数据库（Database/Schema）和表（Table）的基础知识，由于篇幅原因，这里只是一些常用的、基础的。二、Hive的数据库和表先看一张草图：Hive结构从图上可以看出，Hi

2016-05-06 10:30:18 1927

转载 [一起学Hive]之二–Hive函数大全-完整版

Hive函数大全–完整版现在虽然有很多SQL ON Hadoop的解决方案，像Spark SQL、Impala、Presto等等，但就目前来看，在基于Hadoop的大数据分析平台、数据仓库中，Hive仍然是不可替代的角色。尽管它的相应延迟大，尽管它启动MapReduce的时间相当长，但是它太方便、功能太强大了，做离线批量计算、ad-hoc查询甚至是实现数据挖掘算法，而且，和HBase、Sp

2016-05-06 10:29:19 998

转载 [一起学Hive]之一–Hive概述，Hive是什么

1. Hive是什么Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性，因此使用Hive构建的数据仓库也秉承了这些特性。这是来自官方的解释。简单来说，Hive就是在Hadoop上架了一层SQL接口，可以将SQL翻译成MapReduce去Hadoop上执行，这样就使得数据开发和分析人员很方便的使用SQL来完成海量数

2016-05-06 10:28:02 541

转载 “多变量分析”——数据挖掘、数据分析

I。多重对应分析多重对应分析在超过两个以上定类变量时有时候非常有效，当然首先我们要理解并思考，如果只有三个或有限的几个变量完全可以通过数据变换和交互表变量重组可以转换成两个定类变量，这时候就可以用简单对应分析了。对应分析对数据的格式要求：对应分析数据的典型格式是列联表或交叉频数表。常表示不同背景的消费者对若干产品或产品的属性的选择频率。背景变量或属性变量可以并

2016-05-03 17:07:40 110343 3

转载基于分布式架构的大数据商业建模

今天给大家主要分享两个部分：第一个部分会给大家介绍一下百分点基于分布式架构的大数据建模实践。在这一部分我会主要讲一下建模的技术架构、一些技术、工具以及大数据建模的流程9宫格。第二个部分我会给大家介绍一下大数据建模的应用场景，以及百分点做过的一个真实企业建模相关的应用场景。1. 基于分布式架构的大数据建模实践我们看到大数据时代的到来，数据的量，数据的源都发生了

2016-05-03 16:42:25 4680

转载回归分析的七种武器

导读：本文解释了回归分析及其优势，重点总结了应该掌握的线性回归、逻辑回归、多项式回归、逐步回归、岭回归、套索回归、ElasticNet回归等七种最常用的回归技术及其关键要素，最后介绍了选择正确的回归模型的关键因素什么是回归分析？回归分析是一种预测性的建模技术，它研究的是因变量（目标）和自变量（预测器）之间的关系。这种技术通常用于预测分析，时间序列模型以及发现变量之间的因

2016-05-03 10:40:11 1742

java工程师面试题大全

java工程师面试题大全，重新整理，可以参考

2016-01-12

java工程师面试题大全-100%公司笔试题你都能碰到几个

2016-01-08

jdk1.6、spring3.0、hibernate4.0源码

jdk1.6、spring3.0、hibernate4.0、log4j、dom等源码，包括test部分，平时都要去其他网站下载源码，本工程已经导入这些项目的源码，适合需要学习源码的同学下载，工程比较大，直接解压后导入eclipse中即可。

2016-01-05

OFBiz开发快速入门

OFBiz开发快速入门,手把手教你OFBIZ入门，建立第一个hello模块，包括增删改查以及管理等功能，理解OFBIZ代码结构的好资料。案例版本比较老，但是整体的架构没有变化。

2015-08-05

Oracle技术大牛整理常见问题

TianleSoftware Oracle 学习手册，非常全面的oracle学习资料，总共有1400多页，适合想深入研究oracle数据库的朋友。

2015-08-04

Java23种设计模式

Java23种设计模式，集合了所有设计模式的特点以及案例，值得一学

2015-08-01

java虚拟机详解

java虚拟机机制、原理以及体系结构，对底层的理解，值得一看

2015-08-01

JDK_API_1_6_zh_CN

JDK_API_1_6_zh_CN，中文文档

2015-08-01

jdk7.0API.chm

jdk7.0api中文版的,分不多不好意思

2015-08-01

hadoopAPI.chm

hadoopAPI.chm包含所有的hadoop类说明

2015-08-01

spring3.0API.chm、hibernate3.6API、struts2API

spring3.0API.chm（中文）、hibernate3.6API.chm(中文)、struts2API.chm（中文）

2015-08-01

unitils整合dbunit利用excel进行单元测试

unitils整合dbunit利用excel进行单元测试包含mock以及整合spring进行测试

2015-07-31

poi 3.8 jar

超级好用的jar包，可以操作word,excel,ppt等office文档，并且可以进行转化

2012-11-06

Struts2入门教程(清晰、带目录)

讲述struts2的拦截器，体系结构，页面国际化，验证信息，OGNL等

2011-02-11

绿化bgp格式阅读器

超好用的bgp阅读器，免去超星的痛苦。直接用不需安装。

2008-12-09

从零开始jsp动态网页制作基础培训教程

第一章 jsp概述第二章 html语言与javaservlet 第三章 jsp中的java程序第四章 jsp语法第五章 jsp内建对象第六章 jsp与Javabean 第七章 servlet技术第8章-JSP中的文件操作第9章-JSP数据库应用开发第10章-JSP实现网站新闻管理系统第11章-JSP实现网上书店

2008-11-26