数据仓库
一只懒得睁眼的猫
励志成为一个技术大牛!
展开
-
Windows中BeautifulSoup的安装方法
核心内容: 1、BeautifulSoup的下载方法 2、BeautifulSoup的安装方法 3、检验是否安装成功今天在工作当中用到了BeautifulSoup,从网上参考的资料当中大部分都是在Linux平台上面安装BeautifulSoup,于是决定自己好好总结一下,过程尽量记录的详细。(一)BeautifulSoup的下载方法下载的网址:http://www.crummy.com/sof原创 2017-03-28 00:04:52 · 4587 阅读 · 1 评论 -
数据仓库拉链表
转载:http://itindex.net/detail/56925-%E6%95%B0%E6%8D%AE%E4%BB%93%E5%BA%93-%E6%8B%89%E9%93%BE-%E5%8E%9F%E7%90%86转载 2017-07-25 10:18:56 · 2738 阅读 · 0 评论 -
进程池与线程池在数据仓库迁移中的多并发应用
博客核心内容:1、进程池并发应用2、线程池并发应用(一)1、进程池并发应用 代码示例:#!/usr/bin/python# -*- coding:utf-8 -*-"""function:本程序的目的是替代shell脚本,实现拷贝数据的功能"""from multiprocessing import Process,Poolimport osimport subprocessdef原创 2017-07-12 22:49:23 · 693 阅读 · 0 评论 -
数据仓库的相关概念
1、数据仓库的概念: 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策和信息的全局共享。 具体解释: 1)面向主题。传统数据库主要是为应用程序进行数据处理,未必按照同一主题存储数据;数据仓库侧重于数据分析工原创 2017-04-15 21:53:35 · 900 阅读 · 0 评论 -
hadoop distcp命令的使用
hadoop distcp -update -skipcrccheck -m $num_map $old_table_location $new_table_location命令的使用。 简单介绍:http://blog.csdn.net/stark_summer/article/details/45869945 如何在两个集群之间进行表数据的拷贝呢? 1. 复制表结构; 2. 获取旧表转载 2017-05-02 01:10:53 · 3453 阅读 · 0 评论 -
Hive中如何快速的复制一张分区表(包括数据)
转载网址:http://lxw1234.com/archives/2015/09/484.htm转载 2017-05-01 22:11:09 · 6931 阅读 · 1 评论 -
Python自动化测试工具Splinter简介和使用实例
Selenium是一个用于Web应用程序测试的工具。 Selenium 测试直接运行在浏览器中,就像真正的用户在操作一样,支持的浏览器包括IE,Mozilla和Firefox等。 这个工具的主要功能包括:测试与浏览器的兼容性,测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上。测试系统功能,创建衰退测试检验软件功能和用户需求。 代码1:#coding=utf-8from selen原创 2017-04-05 19:33:32 · 1475 阅读 · 0 评论 -
[python] 常用正则表达式爬取网页信息及分析HTML标签总结
转载网址: http://blog.csdn.net/eastmount/article/details/51082253转载 2017-03-27 11:40:08 · 1760 阅读 · 0 评论 -
HiveQL中case when..........then.......else的用法总结
核心内容:1、两个实例 2、case语句中的the关键字可以理解为select关键字优惠前金额:before_prefr_unit_price 实例1、从表gdm_m04_ord_det_sum提取如下数据: 求出在2014年11月11日这天的全部订单中,优惠前金额before_prefr_unit_price不同分布区间的订单的数量,按子订单统计。 输出结果字段如下: 100元以下单量,100原创 2017-04-12 02:34:28 · 23268 阅读 · 0 评论 -
UnicodeDecodeError: 'utf8' codec can't decode byte 0xc9 in position 0: inval
核心内容: 1、字符编码的问题 2、解决的措施问题是这样的,今天在用python运行程序的时候,在Windows平台下是没有任何问题的,但是当在Linux平台下运行程序的时候,总是报下面的错误:UnicodeDecodeError: 'utf8' codec can't decode byte 0xc9 in position 0: inval很明显是编码错误,于是开始各种百度,网上的解决方法大原创 2017-04-01 20:50:19 · 27305 阅读 · 2 评论 -
拉链表
转载网址:http://blog.sina.com.cn/s/blog_4ea178ad0101bdps.html转载 2017-03-15 15:17:57 · 1141 阅读 · 0 评论 -
Python+爬虫技术获取斗鱼直播图片(整理)
核心内容: 1、爬虫的基本原理 2、利用Python爬取数据的方法(使用urllib爬取数据)最近因为工作的原因,要利用爬虫的相关技术,获取html网页相关的数据,特意总结一下。 我们平时从网页下载数据的过程一般是这样的: 右键单击图片–>查看元素–>复制链接地址–>然后在网页复制相应地址–>打开图片后进行保存即可。 在正式介绍爬虫之前,我们先介绍一下爬虫的基本原理? 爬虫是模原创 2017-03-23 21:53:48 · 7147 阅读 · 0 评论 -
数据仓库相关概念
概念: 拉链表的含义:http://zouzhi.iteye.com/blog/1139459转载 2017-03-14 13:02:52 · 649 阅读 · 0 评论 -
Windows中Splinter的安装和使用
核心内容: 1、Splinter的简介 2、Splinter的安装 3、检验Splinter是否安装成功 4、Geckodriver驱动的安装 5、Splinter的操作示例(一)Splinter的简介Splinter是一个使用Python开发的开源Web应用测试工具,它可以帮你实现自动浏览站点和与其进行交互。我也是因为工作需求的原因才找到这个软件的。(二)Splinter的安装注意:前提原创 2017-03-28 00:58:26 · 11001 阅读 · 5 评论 -
MySQL常用命令:
2016年10月8日15:53:25 Hadoop核心重点总结1 1、简述分布式文件系统的由来 2、简述分布式文件系统的特点 3、简述文件系统的本质 4、简述HDFS—Hadoop分布式文件系统的特点 5、简述Hadoop的体系结构 6、简述HDFS的体系结构 7、简述HDFS体系结构中NameNode的重要性 8、简述HDFS体系结构中SecondaryNameNode的重要性转载 2017-09-13 12:02:26 · 548 阅读 · 0 评论