pQ561017_-CSDN博客

转载 spark graphx从txt文件中读数据构建图

程序功能：导入顶点以及边的数据，生成边RDD和顶点RDD，构建图import org.apache.spark._import org.apache.spark.graphx._// To make some of the examples work we will also need RDDimport org.apache.spark.rdd.RDDimport org.apac...

2018-11-27 15:51:45 1723

转载 Spark之RDD

目录一、RDD的概述 1.1　什么是RDD？ 1.2　RDD的属性 1.3　WordCount粗图解RDD 二、RDD的创建方式 2.1　通过读取文件生成的 2.2　通过并行化的方式创建RDD 2.3　其他方式三、RDD编程API 3.1　Transformation 3.2　Action 3.3　Spark WordCount代码编写 3.4...

2018-09-06 16:58:37 257

转载 mapreduce的原理及执行过程

MapReduce简介MapReduce是一种分布式计算模型，是Google提出的，主要用于搜索领域，解决海量数据的计算问题。 MR有两个阶段组成：Map和Reduce，用户只需实现map()和reduce()两个函数，即可实现分布式计算。MapReduce执行流程 MapReduce原理 MapReduce的执行步骤：1、Map任务处理　　1.1 读...

2018-09-06 16:36:51 435

转载 Secondary NameNode:它究竟有什么作用？

前言最近刚接触Hadoop, 一直没有弄明白NameNode和Secondary NameNode的区别和关系。很多人都认为，Secondary NameNode是NameNode的备份，是为了防止NameNode的单点失败的，直到读了这篇文章Secondary Namenode - What it really do? (需翻墙)才发现并不是这样。文章写的很通俗易懂，现将其翻译如下：Se...

2018-08-23 10:49:39 231

转载 lucene 的文档评分机制

lucene 的评分机制elasticsearch是基于lucene的，所以他的评分机制也是基于lucene的。评分就是我们搜索的短语和索引中每篇文档的相关度打分。如果没有干预评分算法的时候，每次查询，lucene会基于一个评分算法来计算所有文档和搜索语句的相关评分。使用lucene的评分机制基本能够把最符合用户需要的搜索放在最前面。当然有的时候，我们可能想要自定义评分算法，这个就和lu...

2018-08-23 10:35:07 431

转载 Hadoop HDFS负载均衡

Hadoop 分布式文件系统（Hadoop Distributed File System），简称 HDFS，被设计成适合运行在通用硬件上的分布式文件系统。它和现有的分布式文件系统有很多的共同点。HDFS 是一个高容错性的文件系统，提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS副本摆放策略第一副本：放置在上传文件的DataNode上；如果是集群外提交，则随机挑选一台磁盘不太...

2018-08-15 10:54:34 998

转载 mysql 数据库引擎

一、数据库引擎　　数据库引擎是用于存储、处理和保护数据的核心服务。利用数据库引擎可控制访问权限并快速处理事务，从而满足企业内大多数需要处理大量数据的应用程序的要求。使用数据库引擎创建用于联机事务处理或联机分析处理数据的关系数据库。这包括创建用于存储数据的表和用于查看、管理和保护数据安全的数据库对象（如索引、视图和存储过程）。二、数据库引擎任务　　在数据库引擎文档中，各主题的顺序遵循用...

2018-08-06 15:56:25 183

转载 C++中string.find()函数与string::npos

查找字符串a是否包含子串b,不是用strA.find(strB) > 0而是strA.find(strB) != string:nposstring::size_type pos = strA.find(strB);if(pos != string::npos){}-------------------------------------------int idx = str.fi...

2018-07-28 11:18:37 448

原创 WEB11_XML反射

反射1、什么是反射技术？动态获取指定类以及类中的内容(成员)，并运行其内容。应用程序已经运行，无法在其中进行new对象的建立，就无法使用对象。这时可以根据配置文件的类全名去找对应的字节码文件，并加载进内存，并创建该类对象实例。这就需要使用反射技术完成2、获取class对象的三种方式获取Class对象的方式一：通过对象具备的getClass方法(源于Object类的方法)。有...

2018-07-25 15:28:50 164

原创 JDBC连接池&DBUtils

使用连接池改造JDBC的工具类：需求：传统JDBC的操作,对连接的对象销毁不是特别好.每次创建和销毁连接都是需要花费时间.可以使用连接池优化的程序.* 在程序开始的时候,可以创建几个连接,将连接放入到连接池中.用户使用连接的时候,可以从连接池中进行获取.用完之后,可以将连接归还连接池.分析:技术分析：【自定义连接池】（了解）* SUN公司提供了一个连接池的接口.(jav...

2018-07-25 15:26:04 206

原创 Mysql多表操作说明

问题说明：一、主从表数据更新问题当两张表没有建立任何关系的时候，那么可以随意删除其中任何一张表中的任何记录，但是一旦把两张表建立了关系(主外键约束)之后，那么不能删除主表中的数据(这些数据内容在从表中有关联关系的数据)，只想执行删除(更新操作)，那么就会出现下图中的错误。要想删除主表中与从表有关联关系的数据，可以这么做：解除主从表的约束关系先删除从表中与主表有关系的数...

2018-07-25 15:21:40 256

原创 ViewPort

Viewport介绍一、Viewport的概念通俗的讲，移动设备上的viewport就是设备的屏幕上能用来显示我们的网页的那一块区域，在具体一点，就是浏览器上(也可能是一个app中的webview)用来显示网页的那部分区域，但viewport又不局限于浏览器可视区域的大小，它可能比浏览器的可视区域要大，也可能比浏览器的可视区域要小。在默认情况下，一般来讲，移动设备上的viewport都是...

2018-07-25 15:12:50 275

原创 WEB名词

day02 form：表单 action:行动(提交的路径) method：方法(提交的方式) input：输入 type：类型 text：文本(文本输入项) password：密码 radio：单选按钮 checkbox：复选框 file：文件(文件上传项) hidden：隐藏字段 reset：重置(...

2018-07-25 15:09:55 369

原创 WEB06_jQuery

今日任务使用JQuery完成页面定时弹出广告(DOM转换和选择器)使用JQuery完成表格的隔行换色使用JQuery完成复选框的全选效果(jQuery的属性操作)使用JQuery完成省市联动效果(jQuery的遍历和DOM操作)使用JQuery完成下列列表左右选择(jQuery的事件)使用JQuery完成表单的校验. 教学导航教学目标 ...

2018-07-25 15:05:19 228

原创 WEB05_jQuery基础

第四章 WEB04_jQuery篇今日任务使用JQuery完成页面定时弹出广告(DOM转换和选择器)使用JQuery完成表格的隔行换色使用JQuery完成复选框的全选效果(jQuery的属性操作)使用JQuery完成省市联动效果(jQuery的遍历和DOM操作)使用JQuery完成下列列表左右选择(jQuery的事件)使用JQuery完成表单的校验. 教学导航...

2018-07-25 14:55:46 189

原创 WEB04_JavaScript

今日任务使用JS完成简单的数据校验(document对象、事件、函数)使用JS完成图片轮播效果(事件、定时操作)使用JS完成页面定时弹出广告(总结BOM对象以及JS的引入方式)使用JS完成表单的校验(总结常用事件)教学导航教学目标掌握JS的基本语法,数据类型,能够使用JS完成简单的页面交互. 掌握JS中的BOM对象以及JS的引入方式...

2018-07-25 14:46:26 442

原创 WEB03_JavaScript

javascript简单介绍ECMAScript 1.语法 2.变量：只能使用var定义，如果在函数的内容使用var定义，那么它是一个局部变量，如果没有使用var它是一个全局的。弱类型！ 3.数据类型：原始数据类型(undefined/null/string/number/boolean) 4.语句： 5.运算符：==与===的区别 6.函数：两种...

2018-07-25 14:29:39 155

转载 Eclipse使用tomact发布Web项目

总共有两种方法：1. maven-tomact插件无需单独安装tomact即可发布，调试使用用maven项目，只需在pom.xml中配置：<plugin> <groupId>org.apache.tomcat.maven</groupId> <artifactId>tomcat7-maven-plugin</art...

2018-07-14 19:41:28 632

Field即Lucene索引文档里的域，一个文档Document可以包含多个Field域，你可以类比数据库表里可以有多个字段来理解，虽然两者不能等同，但有助于你理解每个Field包含3部分信息：域的名称，域的类型，域的值，域的值可以是String,Java.io.Reader,TokenStream,可以是byte[]字节数组，可以是数字等等，而域的类型则是有IndexableFieldTy...

2018-07-14 18:33:48 630

转载在Linux上安装Git

Git是一个开源的分布式版本控制系统，可以有效、高速的处理从很小到非常大的项目版本管理。而国外的GitHub和国内的Coding都是项目的托管平台。但是在使用Git工具的时候，第一步要学会如何安装git，本教程就手把手教大家如何手动编译安装git。1、介绍　　使用Coding管理项目，上面要求使用的git版本为1.8.0以上，而很多yum源上自动安装的git版本为1.7，所以需要掌握手动编译安装g...

2018-06-07 17:11:14 190

原创 HDP 2.5相关问题

how to choose which version of spark be used in HDP 2.5?There are two versions of Spark in HDP 2.5, Spark 1.6 and Spark 2.0. I don't know how I can specify the version of Spark to be used. Can anyone ...

2018-06-07 15:17:26 632

转载 HBase介绍、搭建、环境、安装部署

1、搭建环境部署节点操作系统为CentOS，防火墙和SElinux禁用，创建了一个shiyanlou用户并在系统根目录下创建/app目录，用于存放Hadoop等组件运行包。因为该目录用于安装hadoop等组件程序，用户对shiyanlou必须赋予rwx权限(一般做法是root用户在根目录下创建/app目录，并修改该目录拥有者为shiyanlou(chown –R shiyanlou:shiyanl...

2018-06-06 16:47:16 254

转载 hive命令出现问题

一，问题描述：　　　登录到hive数据仓库后，输入一些命令，例如（show databases ，show tables)，会报出如下错误：Failed with exception Java.io.IOException:java.lang.IllegalArgumentException: java.NET.URISyntaxException: Relati...

2018-05-30 18:53:28 1579 1

转载 java 23种设计模式深入理解

转载以下是学习过程中查询的资料,别人总结的资料,比较容易理解(站在各位巨人的肩膀上,望博主勿究)创建型抽象工厂模式 http://www.cnblogs.com/java-my-life/archive/2012/03/28/2418836.html工厂方法 http://www.cnblogs.com/java-my-life/archive/2012/03/25/2416227.html建造者...

2018-05-29 11:19:38 114

原创 Pig安装常见问题

Terminal initialization failed; falling back to unsupportedLogging initialized using configuration in jar:file:/hive/apache-hive-1.1.0-bin/lib/hive-common-1.1.0.jar!/hive-log4j.propertiesSLF4J: Class ...

2018-05-28 20:22:49 497

转载 hadoop2.x 常用端口及定义方法

一常用端口号1 HDFS2 YARN3 HBase4 Hive5 ZooKeeper二 Web UIHTTP服务1 对于存在 Web UIHTTP服务的所有 hadoop daemon 有如下 url2 特定的 Daemon 又有特定的 URL 路径特定相应信息一. 常用端口号Hadoop 集群的各部分一般都会使用到多个端口，有些是 daemon 之间进行交互之用，有些是用于 RPC 访问以及 ...

2018-05-28 19:29:05 243

转载 sqoop安装及使用

安装下载地址： http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.6-cdh5.5.2.tar.gz 下载 sqoop-1.4.6-cdh5.5.2.tar.gz解压后命名为sqoop-1.4.6修改环境变量： export SQOOP_HOME=/home/xuyao/下载/sqoop-1.4.6 export PATH= $PATH:$SQOOP...

2018-05-28 18:38:18 227

原创 linux上的mysql安装--yum本地安装方式

一、Linux服务器yum安装（CentOS6.3 64位）所有在服务器上执行的命令，都在 # 后面 1、命令安装mysql # yum install mysql mysql-server mysql-devel -y 最后提示 Complete! 表示安装成功 2、查看是否生成了mysqld服务, 并设置随机启动 # chkconfig --list |grep mysql 数字代码服务器...

2018-05-28 16:38:02 1416

原创 Pregel模型

简介在Hadoop兴起之后，google又发布了三篇研究论文，分别阐述了了Caffeine、Pregel、Dremel三种技术，这三种技术也被成为google的新“三驾马车”，其中的Pregel是google提出的用于大规模分布式图计算框架。主要用于图遍历（BFS）、最短路径（SSSP）、PageRank计算等等计算。在Pregel计算模式中，输入是一个有向图，该有向图的每一个顶点都有一个相应的独...

2018-05-15 16:25:19 1066

原创 Java中的关键字

面向对象编程的本质就是：以类的方式组织代码，以对象的组织(封装)数据。先有类后有对象，类是对象的模板。this关键字（从属于对象）普通方法中，this总是指向调用该方法的对象。构造方法中，this总是指向正要初始化的对象。static关键字(从属于类)在类中，用static声明的成员变量为静态成员变量. 1.它为该类的公用变量，属于类，被该类的所有实例共享，在类被载入时被显式...

2018-05-05 11:19:19 155

转载 Python爬虫之一：抓取猫眼电影TOP100

运行平台： Windows Python版本： Python3.6 IDE： Sublime Text 其他工具： Chrome浏览器1. 抓取单页内容2. 正则表达式提取有用信息3. 保存信息4.下载TOP100所有电影信息5.多线程抓取1. 抓取单页内容浏览器打开猫眼电影首页，点击“榜单”，然后再点击”TOP100榜”，就能看到想要的了。接下来通过代码来获取网页的HTML代码。# 如果电脑里...

2018-04-21 16:42:55 606

转载 java之包装类

Java中的基本类型功能简单，不具备对象的特性，为了使基本类型具备对象的特性，所以出现了包装类，就可以像操作对象一样操作基本类型数据。一、基本类型对应的包装类基本类型包装类型byte 　　　　　　　 Byteint Integershort ...

2018-04-20 18:10:41 146

原创操作系统的内存分配策略

首次适应算法（first-fit）：从空闲分区表的第一个表目起查找该表，把最先能够满足要求的空闲区分配给作业，这种方法的目的在于减少查找时间。最佳适应算法（best-fit）：从全部空闲区中找出能满足作业要求的，且大小最小的空闲分区，这种方法能使碎片尽量小。最差适应算法（worst-fit）：它从全部空闲区中找出能满足作业要求的、且大小最大的空闲分区，从而使链表中的节点大小...

2018-03-31 18:00:37 2595

转载 gSpan算法研究

摘要随着信息技术的不断发展，人类可以很容易地收集和储存大量的数据，然而，如何在海量的数据中提取对用户有用的信息逐渐地成为巨大挑战。为了应对这种挑战，数据挖掘技术应运而生，成为了最近一段时期数据科学的和人工智能领域内的研究热点。数据集中的频繁模式作为一种有价值的信息，受到了人们的广泛关注，成为了数据挖掘技术研究领域内的热门话题和研究重点。传统的频繁模式挖掘技术被用来在事务数据集中发现频繁项集，然而...

2018-03-23 20:22:58 3360

原创 elasticsearch优化

常规建议不要一次返回太大量的搜索结果集Elasticsearch设计作为一个搜索引擎，非常擅长返回匹配的查询结果。但是，它并不合适像数据库一样，把整个document作为查询结果返回。如果非要这样做，最好还是使用Scroll这个接口来。避免索引稀疏Elasticsearch是基于Lucene进行索引和存储数据的，最佳的工作方式是密集的数据，即是所有的document拥有相同的字段。特别是启用了no...

2018-03-23 13:19:50 300

转载 Mac android studio 环境搭建和真机运行

Android Studio安装Android SDK配置模拟器安装开发属于自己的应用如何调试应用一些必备技巧你需要准备什么一台MAC机器Android版本大于等于4.0的测试设备（没有可以用模拟器）已熟悉JAVA语言准备好了吗？让我们一起学习一起进步，走起！！！简介Google在2013的I/O开发者大会上正式对外宣布Android Studio将作为Android开发的主要IDE，它是基于In...

2018-03-23 13:17:29 1873

原创 elasticsearch+hadoop项目

系统核心架构设计 1、数据首先存入HDFS,可以通过Spark SQL直接导入到ES中， HDFS中的数据量与ES中数据量大致相当。2、Spark SQL可以直接通过建立Dataframe或者临时表连接ES，达到搜寻优化、减少数据量和筛选的目的，此时数据只在ES内存中而不在Spark SQL中。3、筛选后的数据重新导入到Spark SQL中进行查询。（整体流程代码见附录）一、数据流程1、数据在H...

2018-03-20 12:44:30 5617

转载 elasticsearch写入数据存储的过程

es建索引写入数据，数据最先是存在内存buffer里的，然后再刷入到lucene的底层文件segment中；写入segment完毕后再执行refresh操作，refresh操作后，数据将commit到磁盘中。数据刷入到了磁盘，就可以执行查询操作了。过程简单描述如下：内存buffer-->segment-->refresh-->磁盘注意，这些过程，会有translog...

2018-03-20 12:36:05 3794

原创 hadoop2.4.1集群搭建

hadoop2.0已经发布了稳定版本了，增加了很多特性，比如HDFS HA、YARN等。最新的hadoop-2.4.1又增加了YARN HA注意：apache提供的hadoop-2.4.1的安装包是在32位操作系统编译的，因为hadoop依赖一些C++的本地库，所以如果在64位的操作上安装hadoop-2.4.1就需要重新在64操作系统上重新编译（建议第一次安装用32位的系统，我将编译好的64位的...

2018-03-20 12:33:21 256

空空如也

空空如也