2016年11月_u013063153

原创 scala安装和初识

1.Java和scala运行时都需要JRE，而在企业级开发中，一般一定都会用Java，所以都是安装JDK来安装JRE2.因为Java和scala都会被编译成为JVM字节码，所以Java和scala可以相互调用，在实际的企业级开发中，scala进程调用Java实现的JDBC等访问数据库scala的安装：第一步：安装Java，设置环境变量，因为其他的软件需要Java支持的时候回查询

2016-11-30 14:27:52 2038

转载 Spark DataFrames入门指南：创建和操作DataFrame

一、从csv文件创建DataFrame　　本文将介绍如何从csv文件创建DataFrame。如何做？　　从csv文件创建DataFrame主要包括以下几步骤：　　1、在build.sbt文件里面添加spark-csv支持库；　　2、创建SparkConf对象，其中包括Spark运行所有的环境信息；　　3、创建SparkContext对象，它是进入Spark的核心切入

2016-11-29 15:50:28 6094

转载 Spark Streaming--实战篇

摘要： Sprak Streaming属于Saprk API的扩展，支持实时数据流（live data streams）的可扩展，高吞吐（hight-throughput）容错（fault-tolerant）的流处理。可以接受来自KafKa,Flume,ZeroMQ Kinesis Twitter或TCP套接字的数据源，处理的结果数据可以存储到文件系统数据库现场dashbo

2016-11-29 11:39:26 560

转载 Spark函数详解系列之RDD基本转换

摘要： RDD：弹性分布式数据集，是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作，一个RDD代表一个分区里的数据集 RDD有两种操作算子： Transformation（转换）：Transformation属于延迟计算，当一个RDD转换成另一个RDD时并没有立即进行转换，仅仅是记住了数据集的逻辑操作 A

2016-11-29 11:35:50 460

转载 MySQL之TIMESTAMP（时间戳）用法详解

一、TIMESTAMP的变体TIMESTAMP时间戳在创建的时候可以有多重不同的特性，如：1.在创建新记录和修改现有记录的时候都对这个数据列刷新：TIMESTAMP DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP2.在创建新记录的时候把这个字段设置为当前时间，但以后修改时，不再刷新它：TIM

2016-11-29 11:27:31 4199

转载 Spark 基础及RDD基本操作

什么是RDDRDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。 RDD的属性一组分片（Part

2016-11-29 11:15:08 1610

转载 Spark笔记：RDD基本操作（下）

上一篇里我提到可以把RDD当作一个数组，这样我们在学习spark的API时候很多问题就能很好理解了。上篇文章里的API也都是基于RDD是数组的数据模型而进行操作的。　　Spark是一个计算框架，是对mapreduce计算框架的改进，mapreduce计算框架是基于键值对也就是map的形式，之所以使用键值对是人们发现世界上大部分计算都可以使用map这样的简单计算模型进行计算。但是Spark里

2016-11-29 11:11:58 3182

转载 Spark笔记：RDD基本操作（上）

原文链接：http://www.cnblogs.com/sharpxiajun/p/5506822.html#fillback=0100307b617b7b7b373137623733653633647b617b7b240000&anchor=testanchor本文主要是讲解spark里RDD的基础操作。RDD是spark特有的数据模型，谈到RDD就会提到什么弹性分布式数据集，什么有向无

2016-11-29 11:08:53 1986

转载 scala类型系统：15) 协变与逆变

原文链接：http://hongjiang.info/scala-covariance-and-contravariance/#comment-4003对于一个带类型参数的类型，比如 List[T]，如果对A及其子类型B，满足 List[B]也符合 List[A]的子类型，那么就称为covariance(协变)，如果 List[A]是 List[B]的子类型，即与原来的父子关系正相反，

2016-11-29 10:57:52 275

转载 scala雾中风景(10): 逆变点与协变点

这个问题来自之前这篇scala类型系统：15) 协变与逆变的评论里的问题遇见一个这样的问题class In[+A]{ def fun(x:A){} }会提示error: covariant type A occurs in contravariant position in type A of value xclass In[+A]{def fun(x:A){}}

2016-11-29 10:56:25 396

转载 scala类型系统：19) Manifest与TypeTag

Manifest是scala2.8引入的一个特质，用于编译器在运行时也能获取泛型类型的信息。在JVM上，泛型参数类型T在运行时是被“擦拭”掉的，编译器把T当作Object来对待，所以T的具体信息是无法得到的；为了使得在运行时得到T的信息，scala需要额外通过Manifest来存储T的信息，并作为参数用在方法的运行时上下文。def test[T] (x:T, m:Manifest[T]) {

2016-11-29 10:53:12 345

原创熟练运用每一个光标移动到最前和最后

在单词之间跳转，使用Ctrl+左右键。Ctrl+a跳到本行的行首，Ctrl+e则跳到页尾。Ctrl+u删除当前光标前面的文字 ctrl+k-删除当前光标后面的文字Ctrl+w和Alt+d-对于当前的单词进行删除操作，w删除光标前面的单词的字符，d则删除后面的字符Alt+Backsapce-删除当前光标后面的单词，如果删除错误，使用Ctrl+y进行恢复Ctrl+L进行清屏操作。linux

2016-11-29 10:46:55 17022 3

转载 MySQL单列索引和联合索引

MySQL单列索引和联合索引所有的MySQL列类型能被索引。在相关的列上的使用索引是改进SELECT操作性能的最好方法。一个表最多可有16个索引。最大索引长度是256个字节，尽管这可以在编译MySQL时被改变。对于CHAR和VARCHAR列，你可以索引列的前缀。这更快并且比索引整个列需要较少的磁盘空间。在CREATE TABLE语句中索引列前缀的语法看起来像这样：

2016-11-29 10:45:46 380

转载 IntelliJ Idea 常用快捷键列表

Alt+回车导入包,自动修正Ctrl+N 查找类Ctrl+Shift+N 查找文件Ctrl+Alt+L 格式化代码Ctrl+Alt+O 优化导入的类和包Alt+Insert 生成代码(如get,set方法,构造函数等)Ctrl+E或者Alt+Shift+C 最近更改的代码Ctrl+R 替换文本Ctrl+F 查找文本Ctrl+Shift+Space 自动

2016-11-28 19:18:48 262

转载 spark dataframe操作集锦（提取前几行，合并，入库等）

Spark dataframe派生于RDD类，但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。在实际工作中会遇到这样的情况，主要是会进行两个数据集的筛选、合并，重新入库。首先加载数据集，然后在提取数据集的前几行过程中，才找到limit的函数。而合并就用到union函数，重新入库，就是registerTemple注册成表，再进行写入到Hive中。

2016-11-28 18:33:55 4848

转载 Spark SQL UDF使用

Spark1.1推出了Uer Define Function功能，用户可以在Spark SQL 里自定义实际需要的UDF来处理数据。因为目前Spark SQL本身支持的函数有限，一些常用的函数都没有，比如len, concat...etc 但是使用UDF来自己实现根据业务需要的功能是非常方便的。 Spark SQL UDF其实是一个Scala函数，被catalyst封装

2016-11-26 20:19:28 937

转载 pip使用阿里云源进行加速

阿里云源使用help: http://mirrors.aliyun.com/help/pypiwindows 在用户目录下面创建pip,然后创建pip.ini文件,把阿里的源复制进去 Linux如阿里帮助所说的在~/.pip/pip.conf文件中添加或修改可以看到网址变成了阿里云的链接,速度确实快了很多

2016-11-25 13:53:44 2352

转载大数据下的用户行为分析

1. Consumer behaviour is the study of when，why，how and where people do or don't buy a product。用户行为一般指用户通过中间资源，购买、使用和评价某种产品的记录。同时辅以用户、资源、产品自身及环境的信息。用户行为记录一般可以表示一组属性的集合：｛属性1，属性2，...，属性N｝2. 用户行为分

2016-11-24 16:16:21 3390 1

转载深入理解groupByKey、reduceByKey

测试源码下面来看看groupByKey和reduceByKey的区别： val conf = new SparkConf().setAppName("GroupAndReduce").setMaster("local") val sc = new SparkContext(conf) val words = Array("one", "two", "two", "th

2016-11-24 14:42:26 1879

转载 fabric 安装及简单使用 (centos6)

简介fabric 是一个python的库，fabric可以通过ssh批量管理服务器。第一步安装依赖包安装epel源wget -O /etc/yum.repos.d/epel.repo http://mirrors.aliyun.com/repo/epel-6.repo安装fabric依赖及pipyum install -y python-pip gc

2016-11-24 14:18:58 6212

原创 Spark RDD、DataFrame、DataSet区别和联系

左侧的RDD[Person]虽然以Person为类型参数，但Spark框架本身不了解Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息，使得Spark SQL可以清楚地知道该数据集中包含哪些列，每列的名称和类型各是什么。DataFrame多了数据的结构信息，即schema。RDD是分布式的Java对象的集合。DataFrame是分布式的Row对象的集合。DataFrame除

2016-11-24 10:52:25 4227

转载 [深度学习基础] 深度学习基础及数学原理

原文链接：http://blog.csdn.net/hao_zhang_vision/article/details/52673631图像分类 (image classification) 问题是指, 假设给定一系列离散的类别(categories)(如猫, 狗, 飞机, 货车, ...), 对于给定的图像, 从这些类别中赋予一个作为它的标记 (label). 图像分类问题是计算机视觉领域的核

2016-11-23 16:43:40 1358

转载 Scala 基础总结

数据类型StringString 本不算什么基础类型，Scala String 类型有些特点简单介绍几点字符串插值（String Interpolation）字符串插值一句话解释：能在字符串定义中直接嵌入变量的引用，举个例子：val name = "wuzheng"println(s"hello $name ") // hello wuzheng

2016-11-23 14:10:01 2576

原创 MySQL命令mysqldump：备份数据库

mysqldump命令用来备份数据库。mysqldump命令在DOS的[url=file://\\mysql\\bin]\\mysql\\bin[/url]目录下执行。1) 导出整个数据库(导出文件默认是存在mysql\bin目录下) mysqldump -u 用户名 -p 数据库名 > 导出的文件名 mysqldump -u user_name -p12345

2016-11-23 13:56:07 555

原创 MySQL命令rename：修改表名

rename命令用于修改表名。rename命令格式：rename table 原表名 to 新表名;例如，在表MyClass名字更改为YouClass： mysql> rename table MyClass to YouClass;当你执行 RENAME 时，你不能有任何锁定的表或活动的事务。你同样也必须有对原初表的 ALTER 和 DROP 权限，以及对新表的

2016-11-23 13:54:22 90008 1

原创 MySQL命令alter add：增加表的字段

alter add命令用来增加表的字段。alter add命令格式：alter table 表名 add字段类型其他;例如，在表MyClass中添加了一个字段passtest，类型为int(4)，默认值为0： mysql> alter table MyClass add passtest int(4) default '0';1) 加索引 mysql>

2016-11-23 13:53:45 143638 4

原创 MySQL命令update set：修改表中的数据

update set命令用来修改表中的数据。update set命令格式：update 表名 set 字段=新值,… where 条件;举例如下：mysql> update MyClass set name='Mary' where id=1;例子1，单表的MySQL UPDATE语句：UPDATE [LOW_PRIORITY] [IGNORE] tbl_name

2016-11-23 13:52:59 25224

原创 MySQL命令delete from：删除记录

delete from命令用于删除表中的数据。delete from命令格式：delete from 表名 where 表达式例如，删除表 MyClass中编号为1 的记录： mysql> delete from MyClass where id=1;请对比一下删除数据前后表的变化。FirstNameLastNameAge

2016-11-23 13:52:06 12508 1

原创 MySQL命令select from：查询表中的数据（记录）

select from命令用来查询表中的数据。1) 查询所有行命令格式： select from where ;例如，查看表 MyClass 中所有数据： mysql> select * from MyClass;2) 查询前几行数据例如，查看表 MyClass 中前2行数据： mysql> select * from MyClass orde

2016-11-23 13:51:17 21252

原创 MySQL命令insert into：向表中插入数据（记录）

insert into命令用于向表中插入数据。insert into命令格式：insert into [([,.. ])] values ( 值1 )[, ( 值n )];例如：往表 MyClass中插入两条记录，这两条记录表示：编号为1的名为Tom的成绩为96.45，编号为2 的名为Joan 的成绩为82.99，编号为3 的名为Wang 的成绩为96.5。 mysql

2016-11-23 13:50:22 42688

原创 MySQL命令drop table：删除数据表

drop table命令用于删除数据表。drop table命令格式：drop table ;例如，删除表名为 MyClass 的表： mysql> drop table MyClass;DROP TABLE用于删除一个或多个表。您必须有每个表的DROP权限。所有的表数据和表定义会被取消，所以使用本语句要小心！注意：对于一个带分区的表，DROP TABLE

2016-11-23 13:49:17 8372 1

原创 MySQLl命令desc：获取数据表结构

esc命令用于获取数据表结构。desc命令格式： desc 表名;同样 show columns from 表名;也能获取数据表结构。举例如下：mysql> desc MyClass;mysql> show columns from MyClass;使用MySQL数据库desc 表名时，我们看到Key那一栏，可能会有4种值，即 ' '，'

2016-11-23 13:48:25 15513 1

原创 MySQL命令create table：创建数据表

create table命令用来创建数据表。create table命令格式：create table ( [,.. ]);例如，建立一个名为MyClass的表：字段名数字类型数据宽度是否为空是否主键自动增加默认值idint4否primary keyauto_incremen

2016-11-23 13:47:49 9904

原创 MySQL命令select：当前选择（连接）的数据库

select命令表示当前选择（连接）的数据库。select命令格式：mysql> select database();MySQL中SELECT命令类似于其他编程语言里的print或者write，你可以用它来显示一个字符串、数字、数学表达式的结果等等。如何使用MySQL中SELECT命令的特殊功能呢？1) 显示MYSQL的版本mysql> select version()

2016-11-23 13:46:48 7260

原创 MySQL命令use：使用数据库

use命令可以让我们来使用数据库。use命令格式： use ;例如，如果xhkdb数据库存在，尝试存取它： mysql> use xhkdb;屏幕提示：Database changed1) use 语句可以通告MySQL把db_name数据库作为默认（当前）数据库使用，用于后续语句。该数据库保持为默认数据库，直到语段的结尾，或者直到出现下一个不同的use语句：

2016-11-23 13:45:54 66487 4

原创 MySQL命令drop database：删除数据库

drop命令用于删除数据库。drop命令格式：drop database ;例如，删除名为 xhkdb的数据库：mysql> drop database xhkdb;[例子1] 删除一个已经确定存在的数据库： mysql> drop database drop_database; Query OK, 0 rows affected (0.00 sec)

2016-11-23 13:44:52 59231 3

原创 MySQL命令show databases：显示所有数据库

show databases命令用于显示所有数据库。show databases命令格式：show databases; （注意：最后有个s）例如：mysql> show databases;注意：为了不在显示的时候乱码，要修改数据库默认编码。以下以GBK编码页面为例进行说明。1) 修改MYSQL的配置文件：my.ini里面修改default-character-s

2016-11-23 13:44:09 24606

原创 MySQL命令create：创建数据库

create命令用于创建数据库。create命令格式：create database ;注意：创建数据库之前要先连接Mysql服务器。1) 建立一个名为xhkdb的数据库： mysql> create database xhkdb;2) 创建数据库并分配用户：CREATE DATABASE 数据库名;GRANT SELECT,INSERT,UPDA

2016-11-23 13:43:24 4170

原创 MySQL命令mysqladmin：修改用户密码

mysqladmin命令用于修改用户密码。mysqladmin命令格式：mysqladmin -u 用户名 -p 旧密码 password 新密码1) 给root加个密码ab12首先在DOS下进入目录mysql\bin，然后键入以下命令： mysqladmin -u root -password abc 123注：因为开始时root没有密码，所以-p 旧密码一项就

2016-11-23 13:40:56 6511

原创 MySQL连接数据库

mysql命令用户连接数据库。mysql命令格式： mysql -h主机地址 -u用户名－p用户密码1) 连接到本机上的MYSQL首先打开DOS窗口，然后进入目录mysql\bin，再键入命令mysql -u root -p，回车后提示你输密码。注意用户名前可以有空格也可以没有空格，但是密码前必须没有空格，否则让你重新输入密码。如果刚安装好MYSQL，超级用户

2016-11-23 13:39:20 373

空空如也

空空如也