MapReduce--词频统计

    复制一段: a,v,s,adg,gw,q3,fga,a,a,eg,e a,v,s,adg,gw,q3,fga,a,a,eg,e a,v,s,adg,gw,q3,fga,a,a,eg,e a,v,s,adg,gw,q3,fga,a,a,eg,e a,v,s,adg,gw,q3,fga...

2018-11-11 10:30:54

阅读数 82

评论数 0

MapReduce——词频统计

 使用hadoop2.7.4 1,首先准备数据,在网上随便抄了一段文章 有一天, 一个外来的僧人要到对面村庄去, 临行前村民反复叮嘱他说: 路途中如若看到路标被风刮倒或被掩埋, 要重新树立起来,以免后面的人迷失方向。 僧人刚上路时, 牢牢记着村民嘱咐, 丝毫不敢马虎, 只要看到有路牌倒地或有歪...

2018-11-09 19:00:15

阅读数 136

评论数 0

hive启动失败报错

实测命令可以解决:hive --skiphbasecp --service hiveserver2       转发   环境说明 hadoop-2.7.4 hive-2.3.2 hbase-1.4.2 jdk1.8.0_161 问题现象 原先启动hiveserver2和m...

2018-11-09 17:03:41

阅读数 204

评论数 0

hbase 安装配置

第一步: 官网查找匹配zookeeper的hbase安装包,下载安装包, 我是用的是hbase-1.2.6.1 解压到合适位置,我的路径是/opt/modules/ tar -zxf hbase-0.94.6.tar.gz /opt/modules/ 第二步:配置相关的...

2018-08-28 14:37:32

阅读数 34

评论数 0

ZooKeeper-3.4.13集群管理系统部署

1,下载,           解压缩到 /opt/modules           (路径根据自己的来) 2,配置     在conf/zoo_sample.cfg中,把zoo_sample.cfg复制为 -> zoo.cfg     在文件中配置 data 目录:(...

2018-08-23 14:05:50

阅读数 505

评论数 0

搭建Hadoop

大数据环境搭建虚拟机仿真,与物理机设置完全相同一:系统准备1,在虚拟机中最小安装CENT OS7系统 视自己电脑内存大小而定: 虚拟机内存设置1G~2G CPU 1~4核心 硬盘20G~60Gyum install nano : 查看是否安装nano(测试是否有网络)2,设置虚拟机网络 查看虚拟机...

2018-07-15 16:28:51

阅读数 71

评论数 0

数据清洗 处理 概述

import pandas as pd                                                       import matplotlib.pyplot as plt                                           d...

2018-07-05 20:57:53

阅读数 93

评论数 0

破解idea,了解numpy

Window如何向虚拟机中拷贝文件1. 安装vmtools后可直接共享内存,这样就可以直接粘贴2. 通过xftp一类工具共享文件 编辑文件:viGendit 承载数据 item请求对象 request响应对象 response 引擎   engine蜘蛛   spider管道   pipeline...

2018-07-05 13:44:23

阅读数 237

评论数 0

Scrapy框架

Python:      Tuple  list  set  dict  range  str 分片 [::] 推导      函数: def 函数名称(参数):                 实现函数体      参数种类:               必须参数               默...

2018-06-24 12:49:50

阅读数 73

评论数 0

初窥Scrapy

ScrapyPython开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。 Scrapy运行流程1 引擎访问spider...

2018-06-20 13:08:58

阅读数 99

评论数 0

Python3 XML解析

python有3种方法解析XML:SAX,DOM以及ElemenTree1、SAX(simple API for XML)python标准库包含SAX解析器,SAX用事件驱动模型,通过在解析XML的过程中触发事件并调用用户定义的回调函数来处理XML文件2.DOM(Document Object M...

2018-06-18 16:33:49

阅读数 615

评论数 0

python3-闭包

闭包&LEGB法则所谓闭包,就是将组成函数的语句和这些语句的执行环境打包在一起时,得到的对象00001. 闭包最重要的使用价值在于:封存函数执行的上下文环境;闭包在其捕捉的执行环境(def语句块所在上下文)中,也遵循LEGB规则逐层查找,直至找到符合要求的变量,或者抛出异常...

2018-06-10 13:20:57

阅读数 246

评论数 0

第六节 迭代器与生成器

迭代器迭代是Python最强大的功能之一,是访问集合元素的一种方式。迭代器是一个可以记住遍历的位置的对象。迭代器对象从集合的第一个元素开始访问,直到所有的元素被访问完结束。迭代器只能往前不会后退。迭代器有两个基本的方法:iter() 和 next()。 字符串,列表或元组对象都可用于创建迭代器:字...

2018-06-06 15:57:44

阅读数 52

评论数 0

第五节 继承

       print(sys.getrefcount(s)):测试一个对象有几个引用,需要导入import sys模板        构造方法包括创建对象和初始化对象,在python当中,分为两步执行:先执行__new__方法,然后执行__init__方法;__init__是当实例对象创建完成...

2018-06-01 16:01:43

阅读数 38

评论数 0

python3类和对象

 类的定义和实例化python定义简单类如下。class Car(object):    passc1=Car()   我们定义了一个Car类,其中什么方法也没有实现。C1是我们实力化的类Car,成为了一个对象 可变参数(列表,字典,set),不可变参数(string,number,元组)全局变量...

2018-05-30 17:03:33

阅读数 125

评论数 0

第三节

Python3 元组Python 的元组与列表类似,不同之处在于元组的元素不能修改。元组使用小括号,列表使用方括号。元组创建很简单,只需要在括号中添加元素,并使用逗号隔开即可。 元组中只包含一个元素时,需要在元素后面添加逗号,否则括号会被当作运算符使用:>&g...

2018-05-25 10:39:36

阅读数 67

评论数 0

第二节

1.mystr:len(mystr) :字符长度  Mystr.count(“s”):返回有几个字符  Var.count(i):字符串有几个 capitalize(): mystr.capitalize()将字符串的第一个字符转换为大写 Rfind():从右面开始找Find():如果找不到,in...

2018-05-23 16:02:56

阅读数 53

评论数 0

python第一节

.变量:无需关键字,不需要声明   n=10 2.python是一种强类型语言:每个变量都是一个引用 3.print()换行,不换行:print(,end="") 4.#注释   ’’’ 多行注释  ’’’ 5.数据类型:int,float,bool,compl...

2018-05-19 14:20:57

阅读数 82

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭