BBlue-Sky-CSDN博客

原创 Spark 最强入门导引--来自厦门大学数据库实验室

Spark 最强入门及提升导引

2017-04-29 18:24:15 692

转载 scala map/list/array/的常用内置遍历操作总结

Scala 是面向函数的，所以在集合函数里，它很轻易地提供了非常丰富遍历操作，数组变换操作。这对于我们数据挖掘，爬虫，文本处理等都非常有帮助。有了这些内置的遍历变换操作，我们再也不用像java那样写一个笨笨的for循环来迭代，然后还要定义一些规范的函数来迎合需求。而scala不同，随时随地就可以写一个你自己想要的函数，而不需要严格地定义它，规范它。（注意，scala里一切事物皆函数，一切函数皆对象）

2017-04-29 15:34:56 1619

转载 scala List集合的用法

一、前言：人们常说，Scala是一个难掌握的语言，一是其面向函数和面向对象结合的原因，二是其丰富的语法和内置函数。对于Conllection 这一章的内容，更多的是利用内置函数灵活地运用，避免自己重复造轮子（要求性能高除外）对于集合，通常来说有以下几个常用操作是必须掌握的： 1.增删改查单个元素 2.单个集合的各种遍历方式 3.单个集合分拆组合与翻转 4.两个集合的拼接，删除等操

2017-04-29 14:57:57 2140

转载 java 操作 HDFS上文件

Hdfs的访问方式有两种，第一：类似Linux命令，Hadoop shell。第二：Java API方式。java 对于 hdfs 上文件的基本操作如下：package com.wmg.data.join2;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hado

2017-04-29 12:50:41 361

转载 HDFS --操作命令详解

HDFS --操作命令详解FS ShellcatchgrpchmodchowncopyFromLocalcopyToLocalcpdudusexpungegetgetmergelslsrmkdirmovefromLocalmvputrmrmrsetrepstattailtesttexttouchzFS Shell调用文件系统(FS)Shell命令

2017-04-29 12:41:49 1325

原创 php 入门及提高指南

学习资料–php中文教程，点击可进入注意： ①.之前未接触过编程语言的童鞋，进入学习资料后请认真学习php 基础，即“php中文教程”左侧导航栏的 “PHP教程” ②.之前接触过 C，C++，java，python 等任意一门高级语言的同学，可以粗略浏览 php 基础内容，注意 php 面向对象编程思想与其他面向过程语言的区分主要提高点：

2017-04-29 09:59:46 321

原创 spark sql 程序开发资料合集

scala中文文档spark sql 官方文档spark sql API 官方文档（java/scala 可选）spark sql 官方文档中文翻译

2017-04-29 09:07:56 69012

转载 SQL快速入门

SQL快速入门跟codecademy学sql。创建数据表语法：CREATE TABLE db_name( param_name　param_type；);123例CREATE TABLE celebs ( id INTEGER, name TEXT, age INTEGER);12345增增加字段属

2017-04-29 08:41:25 735

转载正则表达式基础知识

一个正则表达式就是由普通字符（例如字符 a 到 z）以及特殊字符（称为元字符）组成的文字模式。该模式描述在查找文字主体时待匹配的一个或多个字符串。正则表达式作为一个模板，将某个字符模式与所搜索的字符串进行匹配。如：JScriptVBScript匹配/^\[ \t]*$/"^\[ \t]*$"匹配一个空白行。/\

2017-04-28 14:01:06 263

转载 Discuz! 3.2 中各数据库表的作用

Discuz! 3.2 中各数据库表的作用 Crossday Discuz! Board（简称 Discuz!）是北京康盛新创科技有限责任公司推出的一套通用的社区论坛软件系统。自 2001 年 6 月面世以来，Discuz! 已拥有 13 年以上的应用历史和 200 多万网站用户案例，是全球成熟度最高、覆盖率最大的论坛软件系统之一。目前最新版本 Discuz! X3.2 正式版于 2014 年 6

2017-04-28 13:51:24 1831

转载 Discuz二次开发基本知识总结

一） Discuz!的文件系统目录注：想搞DZ开发，就得弄懂DZ中每个文件的功能。 a) Admin：后台管理功能模块 b) Api：DZ系统与其它系统之间接口程序 c) Archiver：DZ中，用以搜索引擎优化的无图版 d) Attachments：DZ中 ,用户上传附件的存放目录 e) Customavatars：DZ中，用户自定义头像的目录 f) Forumda

2017-04-28 13:48:41 9287

转载 Discuz二次开发教你识别程序目录和文件列表 - 帮助文档

作为一款以社区为基础的专业建站平台，Discuz! X1社区平台系统让论坛（BBS）、社交网络(SNS)、门户（Portal）、群组(Group)、开放平台(Open Platform)充分融合于一体，帮助网站实现一站式服务。Discuz! X1比较之前的Discuz!和UCHome做出了大幅度的文件结构变更，现在根据Discuz! X1制作一篇详细的结构说明，也方便新、老站长在安装和使用升级时方便

2017-04-28 13:46:29 2694

原创 spark 内存管理详解及性能调优

spark 应用性能调优技术实操|Apache Spark 内存管理详解

2017-04-28 13:22:34 877

原创 SQL优化系列优秀博文

sql优化优秀博文

2017-04-28 13:19:46 805

原创大数据学习网站

十三个鲜为人知的大数据学习网站，点击进入

2017-04-28 13:16:47 659

原创大数据是什么和大数据技术十大核心原理详解

一、数据核心原理从“流程”核心转变为“数据”核心大数据时代，计算模式也发生了转变，从“流程”核心转变为“数据”核心。Hadoop体系的分布式计算框架已经是“数据”为核心的范式。非结构化数据及分析需求，将改变IT系统的升级方式：从简单增量到架构变化。大数据下的新思维——计算模式的转变。例如：IBM将使用以数据为中心的设计，目的是降低在超级计算机之间进行大量数据交换的必要性。大数据下，

2017-04-28 13:15:23 4085

原创 java 基础思维导图

java 基础思维导图，点击进入

2017-04-28 13:06:03 373

原创 sql语句优化

sql语句优化（基于sql解析器特性的sql 优化注意事项）1，什么是“执行计划”？执行计划是数据库根据SQL语句和相关表的统计信息作出的一个查询方案，这个方案是由查询优化器自动分析产生的，比如一条SQL语句如果用来从一个 10万条记录的表中查1条记录，那查询优化器会选择“索引查找”方式，如果该表进行了归档，当前只剩下5000条记录了，那查询优化器就会改变方案，采用 “全表扫描”方式。可见，执行计

2017-04-28 12:59:05 627

原创机器学习之最全知识图谱

机器学习知识图谱：　图谱出自《全栈数据之门》一书

2017-04-28 12:53:29 6301

原创 IDEA安装scala插件以及创建 scala工程

一. 安装 scala pluginScala可以使用IDEA开发，下载地址：(http://www.jetbrains.com/idea/) Community Edition FREE 和 Ultimate Edition Free 30-day trial都支撑scala开发，我使用的Ultimate Edition当我们下载IDEA后安装并启动后，我们需要安装一个scala Plugin

2017-04-28 12:38:38 2472

原创 spark sql scala 开发环境搭建以及必要jar包导入

1. scala 环境安装及安装（官网下载） 2.检验 scala 是否安装成功 3.安装 scala 集成开发环境 IDEA （官网自行下载安装） 4.在 IDEA 上安装 scala 插件 5.在 IDEA 上创建 scala 工程 4.5步详细过程参见博文 IDEA 上安装 scala 插件及创建 scala 工程 6.在scala工程导入必要 sp

2017-04-28 12:25:53 9024 3

原创 php 并发读写文件冲突的解决实例

php 并发读写文件冲突的解决方案解决方案核心思想：增加临时写入文件数目，对众多临时文件文件进行随机读写，以降低并发的可能性。实例：在对用户访问日志进行记录时，这种方案似乎被采用的比较多。先前需要定义一个随机空间，空间越大，并发的的可能性就越小，这里假设随机读写空间为[1-500],那么我们的日志文件的分布就为log1~到log500不等。每一次用户访问，都将数据随机写到log1~log500

2017-04-27 16:55:08 1724

原创 php文件锁详解及解决实例

php文件锁函数：bool flock ( int handle, int operation [, int &wouldblock] ); 参数详解： int handle：该参数为已经使用fopen() 函数打开的文件指针，例如： $fp = fopen($file , 'w'); flock($fp , LOCK_EX);int operation：lock 参数可以是以下

2017-04-27 16:19:37 1366

原创使用Apache的ab工具进行压力测试

ab命令原理 Apache的ab命令模拟多线程并发请求，测试服务器负载压力，也可以测试nginx、lighthttp、IIS等其它Web服务器的压力。 Apache附带的ab工具（使用的PHP环境是WAMP集成环境，ab工具位于D:\wamp\bin\apache\Apache2.2.21\bin）非常容易使用。ab命令对发出负载的计算机要求很低，既不会占用很多CPU，也不会占用太多的内存，但

2017-04-27 11:25:20 473

原创 Linux运维-Linux系统日常管理

监控系统状态 – w, vmstat 命令w, uptime system load averages 单位时间段内活动的进程数查看cpu的个数和核数 vmstat 1 vmstat 1 10 vmstat各指标含义： r ：表示运行和等待cpu时间片的进程数，如果长期大于服务器cpu的个数，则说明cpu不够用了； b ：表示等待资源的进程数，比如等待I/O, 内存等，这列的值

2017-04-26 17:52:05 848

原创 linux du查看某个文件或目录占用磁盘空间的大小

linux du查看某个文件或目录占用磁盘空间的大小du 命令du -ah --max-depth=1 -a 表示本目录下所有文件和文件夹（不含子目录） -h (英译 human？？）表示以人类能读懂的方式展示 –max-depth=1 表示目录深度测试结果：

2017-04-26 17:50:17 538

原创 linux grep命令详解

Linux中grep常见用法示例grep 命令标准格式：·grep [-options] -pattern [file…]; 即可理解为在指定文件（可利用正则表达式表示多个文件）中搜索模式串(pattern) ,并将结果按照 -options 指示格式输出查询结果[options]主要参数：－c：只输出匹配行的计数。－I：不区分大小写(只适用于单字符)。－h：查询多文件时

2017-04-26 17:37:17 476

原创 Linux find 用法示例

Linux中find常见用法示例find 命令标准格式：·find -path -option [ -print ] [ -exec -ok command ] {} \;即可直接理解为在 path 指定目录下按照 -option 指定参数类型(例如名称,文件大小，修改时间，权限属性，属主，属组）进行查找进而执行[ -print],[-exec]等操作

2017-04-26 16:56:30 253

原创 PHP对于Unix时间戳的转换

常用1.将Unix时间戳转换成类似”2012-05-12 11:09:15”的格式:date('Y-m-d H:i:s',$time); //$time的值即Unix时间戳，可能是你从数据库里取出来的或者...2.将”2012-05-12”格式的时间转换成时间戳：strtotime("2012-05-12"); //返回值为int型3.打印当前时间的时间戳：echo(time());进阶其实PHP提

2017-04-25 21:18:10 2391

原创 PHP里设置小数点的位数

$short_pi = "3.14159";$my_pi = number_format($short_pi, 2);echo $my_pi."\n"; // 3.14

2017-04-25 21:00:02 2811

原创 php 文件操作实例

概述：主要用到 fopen fwrite fclose 三个函数。 ①. fopen（）函数的用法为 fopen( “文件名”,”模式名”); 具体模式：如下图 ②.fwrite()函数用法为fwrite(“文件名”, 字符串），即将 $字符串写入指定文件。代码实例：①. 整体文件操作框架：<?php$myfile = fopen("ne

2017-04-25 20:53:27 866

原创 Spark SQL入门用法与原理分析

sparkSQL是为了让开发人员摆脱自己编写RDD等原生Spark代码而产生的，开发人员只需要写一句SQL语句或者调用API，就能生成（翻译成）对应的SparkJob代码并去执行，开发变得更简洁注意：本文全部基于SparkSQL1.6参考：http://spark.apache.org/docs/1.6.0/一. API Spark SQL的API方案：3种SQLthe DataFrames AP

2017-04-23 17:09:35 952

原创 Spark-SQL之DataFrame操作大全

Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作，在DataFrame中都可以通过调用其API接口来实现。可以参考，Scala提供的DataFrame API。　　本文中的代码基于Spark-1.6.2的文档实现。一、DataFrame对象的生成　　Spark-SQL可以以其他RDD对象、parquet文件、json文件、Hive表，以及通过JD

2017-04-23 11:46:58 438

原创 spark SQL学习（spark连接 mysql）

spark连接mysql（打jar包方式） package wujiadong_sparkSQLimport java.util.Propertiesimport org.apache.spark.sql.SQLContextimport org.apache.spark.{SparkConf, SparkContext}/** * Created by Administrator on 2

2017-04-23 11:18:57 808

原创 spark SQL学习（spark连接hive）

spark 读取hive中的数据 scala> import org.apache.spark.sql.hive.HiveContext import org.apache.spark.sql.hive.HiveContext scala> val hiveContext = new HiveContext(sc) //hive中的feigu数据库中表stud_info scala> va

2017-04-23 11:17:33 4919

原创 spark SQL学习（数据源之json）

准备工作数据文件students.json{“id”:1, “name”:”leo”, “age”:18} {“id”:2, “name”:”jack”, “age”:19} {“id”:3, “name”:”marry”, “age”:17} 存放目录：hdfs://master:9000/student/2016113012/spark/students.jsonscala代码pack

2017-04-23 11:15:56 461

原创 spark SQL实例（load和save操作）

load操作：主要用于加载数据，创建出DataFramesave操作：主要用于将DataFrame中的数据保存到文件中代码示例(默认为parquet数据源类型)package wujiadong_sparkSQLimport org.apache.spark.sql.SQLContextimport org.apache.spark.{SparkConf, SparkContext}/** *

2017-04-23 11:12:54 6707

原创 Spark源码系列（九）Spark SQL初体验之解析过程详解

好久没更新博客了，之前学了一些R语言和机器学习的内容，做了一些笔记，之后也会放到博客上面来给大家共享。一个月前就打算更新Spark Sql的内容了，因为一些别的事情耽误了，今天就简单写点，Spark1.2马上就要出来了，不知道变动会不会很大，据说添加了很多的新功能呢，期待中…首先声明一下这个版本的代码是1.1的，之前讲的都是1.0的。Spark支持两种模式，一种是在spark里面直接写sql，可以通

2017-04-23 10:46:06 1021

原创 Spark源码系列（八）Spark Streaming实例分析

这一章要讲Spark Streaming，讲之前首先回顾下它的用法，具体用法请参照《Spark Streaming编程指南》。Example代码分析复制代码 val ssc = new StreamingContext(sparkConf, Seconds(1)); // 获得一个DStream负责连接监听端口:地址 val lines = ssc.socketTextStream(se

2017-04-23 10:45:38 478

原创 Spark源码系列（七）Spark on yarn具体实现

本来不打算写的了，但是真的是闲来无事，整天看美剧也没啥意思。这一章打算讲一下Spark on yarn的实现，1.0.0里面已经是一个stable的版本了，可是1.0.1也出来了，离1.0.0发布才一个月的时间，更新太快了，节奏跟不上啊，这里仍旧是讲1.0.0的代码，所以各位朋友也不要再问我讲的是哪个版本，目前为止发布的文章都是基于1.0.0的代码。在第一章《spark-submit提交作业过程》的

2017-04-23 10:44:49 347

cms 源码解读

空空如也