当前搜索:

[置顶] Hadoop伪分布安装详解+MapReduce运行原理+基于MapReduce的KNN算法实现

本篇博客将围绕Hadoop伪分布安装+MapReduce运行原理+基于MapReduce的KNN算法实现这三个方面进行叙述。 (一)Hadoop伪分布安装1、简述Hadoop的安装模式中–伪分布模式与集群模式的区别与联系. Hadoop的安装方式有三种:本地模式,伪分布模式,集群(分布)模式,...
阅读(8329) 评论(21)

[置顶] HDFS入门笔记------架构以及应用介绍

引言—HDFS的重要性: Hadoop的定义:适合大数据的分布式存储与计算的一个平台,其中大数据的分布式存储就是由HDFS来完成的,因此掌握好HDFS的相关概念与应用非常重要! 本篇博客将从以下几个方面讲述HDFS: 1、分布式文件系统与HDFS 2、HDFS的体系结构 3、HDFS—-...
阅读(1864) 评论(0)

[置顶] Flume架构以及应用介绍

在具体介绍本文内容之前,先给大家看一下Hadoop业务的整体开发流程: 从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不可避免的一步,从而引出我们本文的主角—Flume。本文将围绕Flume的架构、Flume的应用(日志采...
阅读(77275) 评论(24)

[置顶] Sqoop架构以及应用介绍

本篇文章在具体介绍Sqoop之前,先给大家用一个流程图介绍Hadoop业务的开发流程以及Sqoop在业务当中的实际地位。 如上图所示:在实际的业务当中,我们首先对原始数据集通过MapReduce进行数据清洗,然后将清洗后的数据存入到Hbase数据库中,而后通过数据仓库Hive对Hbas...
阅读(15022) 评论(0)

[置顶] Hive架构以及应用介绍

Hive这个框架在Hadoop的生态体系结构中占有及其重要的地位,在实际的业务当中用的也非常多,可以说Hadoop之所以这么流行在很大程度上是因为Hive的存在。那么Hive究竟是什么,为什么在Hadoop家族中占有这么重要的地位,本篇文章将围绕Hive的体系结构(架构)、Hive的操作、Hive...
阅读(14155) 评论(3)

[置顶] Hbase架构以及应用介绍

Hbase全称为Hadoop Database,即Hbase是Hadoop的数据库,是一个分布式的存储系统。Hbase利用Hadoop的HDFS作为其文件存储系统,利用Hadoop的MapReduce来处理Hbase中的海量数据。利用zookeeper作为其协调工具。 本篇文章将重点介绍Hb...
阅读(9207) 评论(2)

Python中模块的搜索路径实例讲解

2018年3月1日13:26:09最近在工作的时候遇到一个问题,我首先是拿到别人现成的代码,代码如下:import os,sys,re import datetime import threading import subprocess import configparser import sen...
阅读(69) 评论(0)

Hive内部表、外部表、分区表以及外部分区表创建以及导入数据实例讲解

源数据格式: [dd_edw@BJHC-Client-144113 zhang_dd_edw]$ more data.txt 25502#hdfs://ns1/user/dd_edw/adm.db/adm_dealer_order_list_di_big/dt=2015-07-15 2549...
阅读(218) 评论(0)

Python中的多进程小示例

#!/usr/bin/python # -*- coding:utf-8 -*-import requests import json import timefrom multiprocessing import Pooldef func(name): print('********%s'...
阅读(149) 评论(0)

K-means算法

算法核心步骤: K-means聚类的方法也叫K均值聚类,聚类的方法有许多中,其中K-mens可能是最常用到的方法。1 算法的优缺点: 优点 缺点 使用简单 因为它使用了一个随机的元素,所以它不能保证找到最佳的类 无 需要一个合理初始化要聚类的个数:即要初始化K2...
阅读(129) 评论(0)

python的迭代器与生成器实例详解(装载)

装载网址:http://www.jb51.net/article/52234.htm
阅读(210) 评论(3)

Python结合图灵机器人

转载网址:http://m.baidu.com/from=1000953c/bd_page_type=1/ssid=0/uid=0/pu=usm%401%2Csz%40224_220%2Cta%40iphone____/baiduid=7E3CB3B4C806FDBEC43DCABAFA708E6...
阅读(421) 评论(0)

Django通过HttpResponse如何返回用户头像

代码示例:def test(request): # 获取当前文件的路径、父路径以及下一层的路径 curr_dir = os.path.dirname(__file__) parent_path = os.path.dirname(curr_dir) image_pa...
阅读(580) 评论(0)

python 将数据写入excel

参考博客: https://www.cnblogs.com/liuyang92/p/7492336.html https://www.cnblogs.com/lhj588/archive/2012/01/06/2314181.html https://www.cnblogs.com/liuy...
阅读(1417) 评论(0)

Django 时间与时区设置问题

转载网址:http://www.cnblogs.com/brad1994/p/6761110.html
阅读(353) 评论(0)

Python中的urlencode

转载网址:http://www.cnblogs.com/caicaihong/p/5687522.html
阅读(437) 评论(0)

[解决办法]Python中使用json.loads解码字符串时出错:ValueError: Expecting property name: line 1 column 2 (char 1)

转载网址:http://blog.csdn.net/sinsa110/article/details/51189456
阅读(394) 评论(0)

Python获取并输出当前日期时间

转载网址:http://www.cnblogs.com/kerwinC/p/5760811.html
阅读(518) 评论(0)

HTTP请求中的form data和request payload的区别等(转载)

阅读博文之后的小总结: 在Chrome中调试发现,.ajax发送的请求显示在requestpayload下面,而使用.ajax发送的请求显示在request payload下面,而使用.post方法发送的请求显示在form data下面。也就是说payload中的数据是前台通过ajax的方式向后...
阅读(630) 评论(0)

Python中的多线程

转载网址:http://www.cnblogs.com/fnng/p/3670789.html
阅读(422) 评论(0)
    个人资料
    专栏达人
    等级:
    访问量: 72万+
    积分: 9830
    排名: 2236
    最新评论