大数据
薛定谔的哈士奇啊
https://github.com/RocketAlgorithmer
展开
-
hadoop错误:INFO org.apache.hadoop.ipc.Client: Retrying connect to server
启动时错误:INFO org.apache.hadoop.ipc.Client: Retrying connect to server1 netstat -an|grep 8020有类似tcp 0 0 127.0.0.1:8020 0.0.0:* LISTEN说明只是进行了本地端口的监听,则进行如下修改:进入sudo vim /etc/hosts查看...原创 2018-06-02 16:48:02 · 21814 阅读 · 0 评论 -
hadoop启动时需要输入密码的几种原因
1 没有配置ssh,给各台机器授权,把每一台机器的下的./.shh/id_rsa.pub都需要互相加入到其他电脑的aurhorizerd_keys中2 确保你的home文件夹下你的用户名的文件夹权限为755 可用chmod 755 ./home/用户名 的方式更改,同时.ssh/文件夹也要为755 太高如777权限都不行,ssh会检测拒绝访问3 看你是不是配置hadoop是是在你...原创 2018-06-02 16:33:40 · 7865 阅读 · 4 评论 -
hadoop启动时显示JAVA_HOME没设置(could not be found)
错误如:master :Error: JAVA_HOME is not set and could not be found.echo 也有显示:我的是hadoop-2.6.1版本(有的版本可能是conf文件夹),此时你需要进入hadoop/etc/hadoop文件夹下将export JAVA_HOME=${JAVA_HOME}显示修改为export JAVA_HOME...原创 2018-06-02 11:35:49 · 9627 阅读 · 5 评论 -
windows配置hadoop(关键点)
1 安装java配置环境变量2 安装hadoop配置环境变量,同时添加hadoop-commmon 依赖项到bin目录如下包含hadoop2.2.0和其依赖项https://download.csdn.net/download/sinat_36256646/104510483配置xml文件4注意hadooop bin文件夹下.cmd文件中所有call命令要顶格写(需要自己一个一个修改)测试运行:6...原创 2018-05-31 21:54:12 · 180 阅读 · 0 评论 -
linux安装mysql
在安装前,最好确认一下自己系统内有没有mysq,否则后面安装会出错,或者直接卸载后安装也可以。输入指令查看:which mysql返回说明有安装。如果没有安装,则进行下步:CentOS7默认数据库是mariadb,配置等用着不习惯,因此决定改成mysql,但是CentOS7的yum源中默认好像是没有mysql的。为了解决这个问题,我们要先下载mysql的repo源。如果是ubuntu用户,也同理,...转载 2018-06-07 11:07:18 · 152 阅读 · 0 评论 -
hadoop实战之单表关联STjoin源码
一个晚上,看了一下书上的源码,直接抛开书自己写,和书中的略有不同(改进),自己用split函数写的切分部分:package com.test.stjoin;import java.io.IOException;import java.util.ArrayList;import java.util.StringTokenizer;import org.apache.hadoop.conf...原创 2018-06-04 22:56:02 · 262 阅读 · 0 评论 -
hadoop实战之排序Sort源码
Sort:package com.test.sorted;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io...原创 2018-06-04 19:54:36 · 474 阅读 · 0 评论 -
hadoop实战之数据去重Dedup
Hadoop集群(第9期)_MapReduce初级案例1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述 对数据文件中的数据进行去重。数据文件中的每行都是一个数据。 样例输入如下所示: 1)file...转载 2018-06-04 10:13:14 · 2247 阅读 · 0 评论 -
hadoop实战之单词计数WordCount源码
package com.test.wordcount;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.I...原创 2018-06-04 19:57:20 · 510 阅读 · 0 评论 -
hadoop实战wordcount输出结果不一样(没有合并)
我才你的结果是这样:但你想要的结果是这样:推断map方法实现但是reduce方法没实现不容易被找到的bug:你继承reducer类内的方法是reduce()不是reducer()总结:自己敲代码还是得认真的敲对每个字母。借鉴博客:https://blog.csdn.net/qq_16018407/article/details/78894831...转载 2018-06-03 22:24:08 · 540 阅读 · 0 评论 -
详解StringTokenizer()类使用
StringTokenizer是一个用来分隔String的应用类,相当于VB的split函数。1.构造函数public StringTokenizer(String str)public StringTokenizer(String str, String delim)public StringTokenizer(String str, String delim, boolean returnDe...转载 2018-06-03 17:33:42 · 1274 阅读 · 0 评论 -
python爬取网络图片(做训练)
python爬取百度图片用作训练1.根据文件列表list.txt的条目在百度爬取图片# coding=utf-8"""根据搜索词下载百度图片"""import reimport sysimport urllib import requests def getPage(keyword,page,n): page=page*n keyword=urll...原创 2018-09-04 11:46:50 · 671 阅读 · 0 评论