关闭

Hive中日期格式转换用法

在Hive中,经常会使用到对日期和时间戳的各种处理,本文总结了Hive中各类日期格式的处理方法,方便读者快速上手,解决实际问题!...
阅读(254) 评论(0)

使用Sqoop从MySQL导入数据到Hive和HBase

使用Sqoop从MySQL导入数据到Hive和HBase...
阅读(399) 评论(0)

去哪儿的用户画像构建策略及应用实践

我们做用户画像的目的有两个: 必须从业务场景出发,解决实际的业务问题,之所以进行用户画像要么是获取新用户,或者是提升用户体验,或者是挽回流失用户等有明确的业务目标 。 根据用户画像的信息做产品设计,必须要清楚知道用户长什么样子,有什么行为特征和属性,这样才能为用户设计产品或开展营销活动。...
阅读(892) 评论(0)

机器学习中用可视化手段来进行模型评估和参数调优

本篇文章详细阐述机器学习模型评估和参数调优。将主要围绕两个问题来阐述: “知其所以然”:当你选择的一个机器学习模型运行时,你要知道它是如何工作的; “青出于蓝”:更进一步,你得知道如何让此机器学习模型工作的更优。 模型评估的方法 一般情况来说,F1评分或者R平方(R-Squared value)等数值评分可以告诉我们训练的机器学习模型的好坏。也有其它许多度量方式来评...
阅读(761) 评论(0)

sqoop同步数据实践

本章主要介绍了Sqoop在数据同步场景下的应用实践,主要涉及到讲解Sqoop同步数据方面的多种实现方式和功能。Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。...
阅读(533) 评论(0)

用Shell脚本操作mysql数据库

可以用shell脚本操作MySQL数据库,使用mysql的-e参数可以执行各种sql的(创建,删除,增,删,改、查)等各种操作 。 MySQL -hhostname -Pport -uusername -ppassword -e 相关mysql的sql语句,不用在mysql的提示符下运行mysql,即可以在shell中操作mysql的方法。...
阅读(420) 评论(0)

生产经营中常用的预测算法

常见的预测算法有: 1.简易平均法,包括几何平均法、算术平均法及加权平均法; 2.移动平均法,包括简单移动平均法和加权移动平均法; 3,指数平滑法,包括 一次指数平滑法和二次指数平滑法,三次指数平滑法; 4,线性回归法,包括一元线性回归和二元线性回归,下面我一一的简单介绍一下各种方法。 一,简易平均法 是一种简便的时间序列法。是以一定观察期的数据求得平均数,并以所求平均数为基础,预...
阅读(797) 评论(0)

Cloudera在Ubuntu的安装部署

1. 安装前的准备  准备好Ubuntu离线source,配置/etc/apt/source.list  准备好Cloudera Hadoop离线source,配置/etc/apt/source.list.d/cloudera.list  同步集群的/etc/hosts  ssh免密码登录,cloudera-scm-server所在机器能够免密码登录其他cloudera-scm...
阅读(302) 评论(0)

Hue上的Oozie如何构建工作流和定时任务

Oozie是什么? Oozie是一种Java Web应用程序,它运行在Java servlet容器——即Tomcat——中,并使用数据库来存储以下内容: 工作流定义当前运行的工作流实例,包括实例的状态和变量 Hue是什么?  Hue是一个可快速开发和调试Hadoop生态系统各种应用的一个基于浏览器的图形化用户接口。  Hue能干什么?  1,访问HDFS和文件浏...
阅读(1825) 评论(0)

利用sqoop将hive数据导入导出数据到mysql

运行环境  centos 5.6   Hadoop  Hive sqoop是让hadoop技术支持的clouder公司开发的一个在关系数据库和hdfs,hive之间数据导入导出的一个工具 在使用过程中可能遇到的问题: sqoop依赖zookeeper,所以必须配置ZOOKEEPER_HOME到环境变量中。sqoop-1.2.0-CDH3B4依赖hadoop-core-0.20...
阅读(880) 评论(0)

MySQL 的时间日期处理

1.1 获得当前日期+时间(date + time)函数:now() 除了 now() 函数能获得当前的日期时间外,MySQL 中还有下面的函数: current_timestamp()   current_timestamp localtime()   localtime localtimestamp()   localtimestamp     这些日期时间函数,都等同于 now()...
阅读(435) 评论(0)

Python中的4中数据类型区别对比

Python中list,tuple,dict和set的主要区别:一句话来概括四种数据类型的区别是:tuple是一个不可改变的list,set是一个没有Value的dict,list和set的数据是可变的,tuple和dict的数据是不可变的!...
阅读(613) 评论(0)

机器学习——贝叶斯分类算法

贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文作为分类算法的第一篇,将首先介绍分类问题,对分类问题进行一个正式的定义。然后,介绍贝叶斯分类算法的基础——贝叶斯定理。最后,通过实例讨论贝叶斯分类中最简单的一种:朴素贝叶斯分类。...
阅读(510) 评论(0)

机器学习——Python实现逻辑回归

逻辑回归是一项可用于预测二分类结果(binary outcome)的统计技术,广泛应用于金融、医学、犯罪学和其他社会科学中。逻辑回归使用简单且非常有效,你可以在许多机器学习、应用统计的书中的前几章中找到个关于逻辑回归的介绍。逻辑回归在许多统计课程中都会用到。...
阅读(1128) 评论(0)

Python学习笔记之八皇后问题

一、yield语句     任何包含 yield 语句的函数称为生成器, yield 不像 return 那样返回值,yield 每次产生多个值。使用 yield 语句每次产生一个值后,函数就会被冻结:即函数停在这一点等待被激活,激活后从此点开始执行。   例: >>> def flatten(nested):                for sublist in...
阅读(466) 评论(0)

机器学习——武林盟主分享机器学习之武功秘籍

机器学习研究的是计算机怎样模拟人类的学习行为,以获取新的知识或技能,并重新组织已有的知识结构使之不断改善自身。简单一点说,就是计算机从数据中学习出规律和模式,以应用在新数据上做预测的任务。...
阅读(1287) 评论(1)

Java输出系统当前时间的方法全集

输出各种时间格式的Java代码: [java] view plain copy   package com.grace.test;      import java.text.DateFormat;   import java.text.ParseException;   import java.text.SimpleDateFormat;   impo...
阅读(326) 评论(0)

Python3连接MySQL数据库

本文我们为大家介绍 Python3 使用 PyMySQL 连接数据库,并实现简单的增删改查。什么是 PyMySQL?PyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个库,Python2中则使用mysqldb。PyMySQL 遵循 Python 数据库 API v2.0 规范,并包含了 pure-Python MySQL 客户端库。...
阅读(2057) 评论(1)

机器学习——DBN深度信念网络详解

使用BP算法单独训练每一层的时候,我们发现,必须丢掉网络的第三层,才能级联自联想神经网络。然而,有一种更好的神经网络模型,这就是受限玻尔兹曼机。使用层叠波尔兹曼机组成深度神经网络的方法,在深度学习里被称作深度信念网络DBN,这是目前非常流行的方法。...
阅读(10753) 评论(0)

R语言的学习线路图

现在对R感兴趣的人越来越多,很多人都想快速的掌握R语言,然而,由于目前大部分高校都没有开设R语言课程,这就导致很多人不知道如何着手学习R语言。本文分为6个部分,分别介绍初级入门,高级入门,绘图与可视化,计量经济学,时间序列分析,金融等。...
阅读(574) 评论(0)
153条 共8页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:368460次
    • 积分:3637
    • 等级:
    • 排名:第9925名
    • 原创:60篇
    • 转载:93篇
    • 译文:0篇
    • 评论:17条
    最新评论