自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 pyspark学习(二)--弹性数据集RDD

Spark 围绕RDD的概念(pyspark学习一 中已经讲了rdd的概念)展开,RDD是可并行操作的容错性元素集合。创建RDD有两种方式:并行化驱动程序中的现有集合,或在外部系统中引用数据集。1. 获得RDD创建rdd方式主要有两种处理现有集合 Parallelizing Collections读取外部数据 External Datasets1.1  处理现有集合

2018-01-08 21:44:24 586

原创 pyspark学习(一)-- 入门程序word count

1. 学习spark的第一个程序 wordcount先说下本人的开发环境和工具:win10spark 1.6python 2.7pycharm什么是word count?单词计数为什么第一个程序是它,helloword呢?基本上是学习hadoop的mapreduce或spark入门的第一个程序,地位类似于学习写代码时的hello world。言归正传代码

2018-01-08 21:25:26 9138 1

原创 Mybatis(四)映射文件

输入映射本节中的配置文件位置Config/mapper/UserMapper.xml简单类型参考入门程序中的findUserById的映射文件。位置config/user.xml Pojo类型参考入门程序insertUser。 包装pojo类型需求综合查询时,可能会根据用户信息、商品信息、订单信息等作为条件进行查询,用户信息中的查询条件由:用户的名称和

2017-11-29 23:51:57 316

原创 Mybatis(三)全局文件配置

全局配置文件概览SqlMapConfig.xml的配置内容和顺序如下(顺序不能乱):Properties(属性)Settings(全局参数设置)typeAliases(类型别名) typeHandlers(类型处理器)objectFactory(对象工厂)plugins(插件)environments(环境信息集合)    environment(单个环境

2017-11-29 23:49:40 596

原创 Mybatis(二) 原始dao开发和mapper开发

上传到博客后目录有问题,原目录如下 原始dao开发需求根据用户ID查询用户信息根据用户名称模糊查询用户列表添加用户原始dao开发方式Dao接口 Dao实现类SqlSessionFactory,它的生命周期,应该是应用范围,全局范围只有一个工厂,使用单例模式来实现这个功能。与spring集成之后,由spring来对其进行单例管理。 SqlSe

2017-11-29 23:47:21 298

原创 Mybatis(一)入门程序

对原生态JDBC问题总结原生JDBC代码package com.utils;      import java.sql.Connection;   import java.sql.DriverManager;   import java.sql.PreparedStatement;   import java.sq

2017-11-28 23:20:08 285

原创 使用Maven编译Spark源码

linux和windows下超详细spark源码编译。包括Maven安装,spark源码编译,导入idea,遇到的问题及解决办法。

2017-11-24 23:35:19 3498 1

转载 Spark性能优化指南——高级篇

转自美团点评技术团队:http://tech.meituan.com/spark-tuning-pro.html 前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。

2017-04-21 19:47:02 461

转载 Spark性能优化指南——基础篇

前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。

2017-04-21 19:40:54 413

转载 机器学习练习三:逻辑回归

Part 3这篇文章是一系列 Andrew Ng 在 Coursera 上的机器学习

2017-04-19 20:44:52 1572

转载 机器学习练习二:多元线性回归

Ng 机器学习 多元线性回归

2017-04-19 20:36:11 1077

转载 机器学习练习一:简单线性回归

简单线性回归

2017-04-19 20:27:23 873

转载 保存Hive查询的方法

出处 http://www.cnblogs.com/harvey888/p/6279503.htmlHive的查询(select)结果保存起来,方便进一步处理或查看。这个方法最为常见,笔者也经常使用。sql的查询结果将直接保存到/tmp/out.txt中$ hive -e "select user, login_timestamp from user_login

2017-04-19 19:58:32 416

原创 Spark Streaming 3:转换操作

1.6.2 spark streaming programming guide http://spark.apache.org/docs/1.6.2/streaming-programming-guide.htmlDStreams转换操作 Transformations on DStreams与rdd类似,DStream也有许多转换操作,常用的如下T

2017-04-19 16:45:45 751

原创 Python学习:String转为Datetime类型

from datetime import *t_str = '2015-04-07 19:11:21'd = datetime.strptime(t_str, '%Y-%m-%d %H:%M:%S')print d# 带微秒的时间d2 = datetime.strptime(t_str2, '%Y-%m-%d %H:%M:%S.%f')t_str2 = '2015-0

2017-04-15 22:01:29 1918

原创 Spark Streaming 2:概述

1. 简介基于Spark的流式处理框架SparkStreaming接收Kafka、Flume、HDFS等各种来源的实时输入数据,进行处理后,处理结果保存在HDFS、Databases等各种地方SparkStreaming接收这些实时输入数据流,会将它们按批次划分,然后交给Spark引擎处理,生成按照批次划分的结果流SparkStreaming提供了表示连续数据流的、高度抽象的被称为离散流的

2017-04-15 21:48:32 389

原创 Spark Streaming 1:入门程序windows或linux下监听端口或本地目录的wordcount

Spark Streaming Programming Guide  1.6.2官方指导http://spark.apache.org/docs/1.6.2/streaming-programming-guide.htmlSpark Streaming可以监听本地文件、HDFS、端口、flume、kafka等。 Linux下监听端口9999实现wordcount:

2017-04-15 21:03:13 1261

原创 Pyspark连接数据库

API  数据库以Mysql为例url = “jdbc:mysql://localhost:3306/test”table = “test”mode = properties = {"user":"fan","password":"111111"} 读 df = sqlContext.read.jdbc(url,table,mode,properties)写 d

2017-04-15 17:49:44 6298

原创 pycharm开发spark导入pyspark包

按照网上教程配置好spark后,import pyspark会报错,但是能运行解决:导入\spark\python\lib\中的pyspark和py4j两个包

2017-04-15 17:47:44 2306 1

转载 Java命名规范

1. 类名和接口名 尽量使用名词,且每个单词首字母大写 如:MyClass2. 方法名和变量名 第一个单词小写,其他单词首字母大写,建议使用动词开头 如:getName setName3. 常量名 全部大写,指出其完整含义,最好使用static和final修饰 如:MAX_SIZE

2016-08-18 11:44:35 371

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除