2017年10月_EricJeff_

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月

原创 spark streaming 使用socket数据来源

1.编写监听socket的模拟socket程序 2.编写SocketWordCount 3.基于状态的单词累计出现次数 4.基于窗口的单词累计出现次数1.编写监听socket的模拟socket程序import java.io.PrintWriterimport java.net.ServerSocketimport scala.io.Sourceobject DataFlowSimulato

2017-10-27 14:43:18 2140

原创 spark Streaming编写一个WorldCount的例子

我使用的是idea1.生成单词文件 2.编写worldcount 3.运行worldcount 4.上传文件首先使用java生成单词文件package com;import java.io.BufferedWriter;import java.io.FileOutputStream;import java.io.OutputStreamWriter;import java.util.Ra

2017-10-26 11:20:32 488

原创使用idea编辑sparkSql的程序运行出现java.lang.IllegalArgumentException: java.net.URISyntaxException

这个是具体错误：Exception in thread "main" java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI: file:D:/idea/work/sparkTest/spark-warehouse at org.apache.hadoop.f

2017-10-25 16:14:19 4218

原创 sparkSQL使用

今天直接了解它的使用：SparkSQL CLICLI（Command-Line Interface，命令行界面）是指可在用户提示符下键入可执行指令的界面，它通常不支持鼠标，用户通过键盘输入指令，计算机接收到指令后予以执行。Spark CLI指的是使用命令界面直接输入SQL命令，然后发送到Spark集群进行执行，在界面中显示运行过程和最终的结果。 Spark1.1相较于Spark1.0最大的差别就

2017-10-24 19:44:04 675

原创 spark on yarn

安装 hadoop环境变量：export HADOOP_HOME=/home/spark/app/hadoop-2.4.1export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoopexport YARN_HOME=/home/spark/app/hadoop-2.4.1export YARN_CONF_DIR=$YARN_HOME/etc/hadoopexpo

2017-10-24 12:24:31 230

原创使用idea创建一个wordcount例子

打开idea—>file—> project 点击finish，创建项目，然后点击 file–>project structure–>Modules 点击”+”添加你的项目，点击右边的Sources–>点击下面的sources–>在src创建main/scala文件夹然后在点击liberary 点击”+” –>scala sdk（添加SDK）在点击”+”—>java (添加jar) 然后

2017-10-23 20:11:08 1649

原创 post请求路径出错NET:ERR_CONNECTION_RESET

这个是因为上传的数据大小超过了服务器tomcat设置上传文件大小只需要将服务器上传大小修改大一些就行了找到server.xml文件修改maxPostSize这个参数 maxPostSize=”0” 没有大小限制 maxPostSize=”20971520” 20M<Connector port="8080" protocol="HTTP/1.1" max

2017-10-23 18:39:20 51300 1

原创汇编使用教程 debug

汇编执行的流程：编辑(name.asm)—>编译(name.obj)—>连接(name.exe)–>加载–>内存中的程序–>运行使用的软件 masm,link,command,cpu下载：http://download.csdn.net/download/w3045872817/10034541使用debug教程：用debug的R命令查看、改变cpu寄存器的内容用debug的D命令查看内存中的

2017-10-22 17:33:30 915

原创 dos开wifi

win+R输入cmdnetsh wlan set hostednetwork mode=allow ssid=wifi key=12345678更改适配器设置—>对连接的网络右击—->共享—>打勾—>选择–>无线网络连接数字最大打开wifinetsh wlan start hostednetwork关闭wifinetsh wlan stop hostednetwork

2017-10-21 18:07:07 465

原创 RDDs基本操作Transformation和action

首先先了解一下这些概念：Spark 对数据的核心抽象—弹性分布式数据集（Resilient Distributed Dataset，简称 RDD）RDD是一个不可变的分布式对象集合，一旦创建便不能修改。每个RDD都可被分为多个分区，分布在不同的节点机器之上转换:（Transformation): 转化操作会由一个 RDD 生成一个新的 RDD，从已有的RDD派生出新的RDD,Spark会使用谱

2017-10-21 18:00:27 702

原创 spark安装local和standalone

首相下载：下载scala http://www.scala-lang.org/ 下载spark http://spark.apache.org/downloads.html 下载对应版本安装步骤：1.tar -zxvf scala_file2.添加环境变量(/etc/profile)3.source /etc/profile4.tar -zxvf spark_file5.添加环境变

2017-10-19 21:37:31 497

转载原码，补码，反码详解

一. 机器数和真值在学习原码, 反码和补码之前, 需要先了解机器数和真值的概念. 1、机器数一个数在计算机中的二进制表示形式, 叫做这个数的机器数。机器数是带符号的，在计算机用一个数的最高位存放符号, 正数为0, 负数为1.比如，十进制中的数 +3 ，计算机字长为8位，转换成二进制就是00000011。如果是 -3 ，就是 10000011 。那么，这里的 00000011 和 10000011

2017-10-17 19:50:37 1395 1

1.什么是zookeeperzookeeper:是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop的重要组件，CDH版本中更是使用它进行Namenode的协调控制。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高

2017-10-15 18:24:29 449

原创 Haproxy讲解

首先讲一讲三大主流软件负载均衡器对比(LVS VS Nginx VS Haproxy)LVS：1、抗负载能力强。抗负载能力强、性能高，能达到F5硬件的60%；对内存和cpu资源消耗比较低2、工作在网络4层，通过vrrp协议转发（仅作分发之用），具体的流量由linux内核处理，因此没有流量的产生3、稳定性、可靠性好，自身有完美的热备方案；（如：LVS+Keepalived）4、应用范围比较广，

2017-10-15 10:21:27 847

转载 iptables的讲解

一：前言防火墙，其实说白了讲，就是用于实现Linux下访问控制的功能的，它分为硬件的或者软件的防火墙两种。无论是在哪个网络中，防火墙工作的地方一定是在网络的边缘。而我们的任务就是需要去定义到底防火墙如何工作，这就是防火墙的策略，规则，以达到让它对出入网络的IP、数据进行检测。目前市面上比较常见的有3、4层的防火墙，叫网络层的防火墙，还有7层的防火墙，其实是代理层的网关。对于TCP/IP的七层模型来讲

2017-10-15 10:04:50 369

原创 Markdown的使用教程

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2017-10-15 10:03:52 269

原创 socat安装

socat的主要特点就是在两个数据流之间建立通道；且支持众多协议和链接方式：ip, tcp, udp, ipv6, pipe,exec,system,open,proxy,openssl,socket等。 socat是一个多功能的网络工具，名字来由是” Socket CAT”，可以看作是netcat的N 倍加强版，socat的官方网站：http://www.dest-unreach.or

2017-10-14 18:15:37 10627

原创 linux中./configure 和它的参数讲解

./configure该脚本将运行一些测试来猜测一些系统相关的变量并检测你的操作系统的特殊设置，并且最后在制做树中创建一些文件以记录它找到了什么．缺省设置将制作服务器和应用程序，还有所有只需要C编译器的客户端程序和接口。缺省时所有文件都将安装到 /usr/local/pgsql．你可以通过给出下面 configure 命令行选项中的一个或更多的选项来客户化

2017-10-14 17:13:35 668

原创 eclipse创建maven web项目

点击file–>new—>maven project或（other –>maven project)–>next 出现如下图：点击next，然后选择webapp 填写 group id和artifact id，group id：一般是填写的是公司和组织的域名倒叙，artifact id：你的工程名配置maven：创建maven的一般目录： src目录下创建main/java,main

2017-10-11 11:42:12 234

原创 hbase shell 的基本常用操作

今天我们只讲hbase shell的基本操作，我们从这个几个方面讲 general，ddl，namespace，dml，tools，replication，snapshot，securitygeneralstatus：提供 HBase 的状态，例如，服务器的数量table_help：查看所有的帮助文档version：查看版本whoami：提供用户的信息如 spark (auth:SIMPL

2017-10-09 21:50:07 726

原创 sqoop基本介绍

Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。导入图：sqoop的全称：sql-to-hadoopsqoop分为连个版本，这两个版本完全不兼容版本号的划分： apache:1.4.x~,1.99.

2017-10-08 19:02:56 1327

原创将mysql中数据导入到hbase中出现 NoSuchMethodError

具体的错误为：Exception in thread "main" java.lang.NoSuchMethodError: org.apache.hadoop.hbase.HTableDescriptor.addFamily(Lorg/apache/hadoop/hbase/HColumnDescriptor;)V原因是：新的Hbase版本使用了新的Api，不支持老的api了。S

2017-10-08 17:07:29 1699

原创 hbase安装

首相下载：http://mirrors.shuosc.org/apache/hbase/1.1.12/安装步骤：1.tar -zxvf hbase-1.1.12-bin.tar.gz 2.修改/etc/profile export HBASE_HOME=/home/spark/app/hbase-1.1.12 export PATH=$PATH:$HBASE_HOM

2017-10-08 16:39:30 231

原创 sqoop安装

sqoop有两个版本：sqoop1和sqoop2如果你想自己编译源码:以下是执行步骤：1.下载源码2.运行mvn clean package -Pbinary -DskipTests如果报内存错误：set MAVEN_OPTS=XX:MaxPermSize=128M编译docs项目会报异常，对应的pom.xml的一个插件改一个版本3.3<dependency> <groupId>o

2017-10-08 14:22:14 512

原创 hdfs客户端上传文件追加出现的问题：

问题一org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.protocol.AlreadyBeingCreatedException):failed to create file解决方案：配置文件中：hdfs-site.xml<property> <name>dfs.support.append</name>

2017-10-07 19:21:48 1348

原创 Hive的基本概念

1）数据单元按照数据的粒度大小，hive数据可以被组织成： 1）databases：避免不同表产生命名冲突的一种命名空间 2）tables：具有相同scema的同质数据的集合 3）partitions：一个表可以有一个或多个决定数据如何存储的partition key 4）buckets（或clusters）：在同一个partition中的数据可

2017-10-06 19:38:28 2253

原创 hive安装配置

我们这里用的是本地模式—–metstore存在mysql数据库中首相：sudo apt-get update 更新一下 sudo apt-get install mysql-server 下载mysql 安装 hive让我们看看hive的结构图吧: 1.首相解压：tar -zxvf ...cd confcp hive-env.sh.template hive-env.sh修改一下内容

2017-10-06 17:30:29 564

原创简单说明CGI是什么

CGI是什么CGI是common gateway interface的缩写，大家都译作通用网关接口，但很不幸，我们无法见名知意。我们知道，web服务器所处理的内容都是静态的，要想处理动态内容，需要依赖于web应用程序，如php、jsp、python、perl等。但是web server如何将动态的请求传递给这些应用程序？它所依赖的就是cgi协议。没错，是协议，也就是web server和web

2017-10-06 10:02:11 2972

转载 log4j.properties配置详解与实例-全部测试通过

转载:http://blog.csdn.net/qq_30175203/article/details/52084127最近使用log4j写log时候发现网上的写的都是千篇一律，写的好的嘛不全，写的全一点的嘛没有一点格式，看着累。这里把网上收集到的整理了一下，并且全部都在机器上测试成功了。这么好的文档估计没有了吧? #########################################

2017-10-05 18:57:01 315

原创 kafka_2.11-1.0.0单机和集群的安装和配置

首先下载kafka安装包tar -zxvf kafka安装包cd configvim server.propertiesA.将zookeeper.connect=zookeeper的ip:2181 这一步也可以不做启动kafka如果A做了就不做这个BB. bin/zookeeper-server-start.sh config/zookeepe!bin/kafka-server-start

2017-10-05 16:21:15 4884

原创客户端连接redis出现:redis.clients.jedis.exceptions.JedisDataException: DENIED Redis is running

首先我们是远程连接redis注意要把它的ip绑定为远程的就是把 bind 127.0.0.1注释掉出现以上错误是因为:redis目前处于受保护模式，不允许非本地客户端链接，我们可以通过给redis设置密码，然后客户端链接的时候，写上密码就可以解决了两种方式:方式一：在redis.conf配置文件中：requirepass password方式二：用客户端登录 A.查看密码 confi

2017-10-01 17:49:52 5655 1

原创 redis编译出错:jemalloc/jemalloc.h: No such file or directory

今天使用redis，在make时出现了一个问题：找不到jemalloc.h这个文件原因：说关于分配器allocator，如果有MALLOC 这个环境变量，会有用这个环境变量的去建立Redis。而且libc 并不是默认的分配器，默认的是 jemalloc, 因为 jemalloc 被证明有更少的 fragmentation problems 比libc。但是如果你又没有jema

2017-10-01 17:12:16 658

酷点桌面是一款实现计算机系统个性化的桌面美化软件

酷点桌面是一款实现计算机系统个性化的桌面美化软件。软件功能全面，可实现对“开机界面、登陆界面、系统外观、桌面壁纸、电脑图标、鼠标指针”的美化，并提供有易用的桌面美化增强插件等功能！

2019-12-23

masmAL.zip

MASM是Microsoft Macro Assembler 的缩写，是微软公司为x86 微处理器家族开发的汇编开发环境，拥有可视化的开发界面，使开发人员不必再使用DOS环境进行汇编的开发，编译速度快，支持80x86汇编以及Win32Asm，是Windows下开发汇编的利器。它与windows平台的磨合程度非常好，但是在其他平台上就有所限制，使用MASM的开发人员必须在windows下进行开发

2017-10-22

scala-2.11.11.tgz

cala 是一门多范式（multi-paradigm）的编程语言，设计初衷是要集成面向对象编程和函数式编程的各种特性。 Scala 运行在Java虚拟机上，并兼容现有的Java程序。 Scala 源代码被编译成Java字节码，所以它可以运行于JVM之上，并可以调用现有的Java类库

2017-10-19

Git-2.8.1-64-bit.exe

Git是一个开源的分布式版本控制系统，可以有效、高速的处理从很小到非常大的项目版本管理。[2] Git 是 Linus Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件这个软件中含有bash模拟，让你在windows中使用和linux中一样

2017-09-23

Python爬虫包.zip

只是爬取廖雪峰老师的教程，使用的是urllib,urllib2,BeautifulSoup这几个模块我已经将这个爬虫的教程写到我的博客中了

2017-09-21

MySQL-python-1.2.3.win-amd64-py2.7.exe

python连接mysql的插件，MySQL-python-1.2.3.win-amd64-py2.7.exe对应的是2.7的Python版本，直接安装就行，然后就可使使用PythonIDE工具进行开发了

2017-09-19

netcat.rar

netcat是网络工具中的瑞士军刀，它能通过TCP和UDP在网络中读写数据。通过与其他工具结合和重定向，你可以在脚本中以多种方式使用它。使用netcat命令所能完成的事情令人惊讶。

2017-09-17

javaTransactJson.zip

JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 的交互。

2017-09-16

masm-debug-link

汇编大多是指汇编语言，汇编程序。把汇编语言翻译成机器语言的过程称为汇编，这里是模拟dos编译汇编的环境工具

2017-09-14

dosbox-debug

DOSBox是一个软件。它是当前在 Windows 系统运行 DOS 游戏的较为完美的解决方案，该软件不仅能支持相当多的游戏实现正常运行，而且能将声音完美表现出来

2017-09-14

apache-2.4.27(2)

Apache是世界使用排名第一的Web服务器软件。它可以运行在几乎所有广泛使用的计算机平台上，由于其跨平台和安全性被广泛使用，是最流行的Web服务器端软件。同时Apache音译为阿帕奇。

2017-09-13

apache-2.4.27

Apache是世界使用排名第一的Web服务器软件。它可以运行在几乎所有广泛使用的计算机平台上，由于其跨平台和安全性被广泛使用，是最流行的Web服务器端软件。同时Apache音译为阿帕奇

2017-09-13

jsoup-1.9.2.jar

jsoup 是一款 Java 的HTML 解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据

2017-09-10

hive-hwi-0.13.1.war

Hive有三种使用方式：CLI、HWI浏览器、Thrift客户端。安装配置完Hive后无需进行额外操作即可使用CLI。但是HWI则需要单独搭建，HWI是Hive Web Interface 的简称,是hive cli 的一个web 替换方案

2017-09-02

apache-hive-0.13.1-bin.tar.gz

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

2017-09-02