- 博客(20)
- 收藏
- 关注
原创 pyspark学习(二)--弹性数据集RDD
Spark 围绕RDD的概念(pyspark学习一 中已经讲了rdd的概念)展开,RDD是可并行操作的容错性元素集合。创建RDD有两种方式:并行化驱动程序中的现有集合,或在外部系统中引用数据集。1. 获得RDD创建rdd方式主要有两种处理现有集合 Parallelizing Collections读取外部数据 External Datasets1.1 处理现有集合
2018-01-08 21:44:24 586
原创 pyspark学习(一)-- 入门程序word count
1. 学习spark的第一个程序 wordcount先说下本人的开发环境和工具:win10spark 1.6python 2.7pycharm什么是word count?单词计数为什么第一个程序是它,helloword呢?基本上是学习hadoop的mapreduce或spark入门的第一个程序,地位类似于学习写代码时的hello world。言归正传代码
2018-01-08 21:25:26 9138 1
原创 Mybatis(四)映射文件
输入映射本节中的配置文件位置Config/mapper/UserMapper.xml简单类型参考入门程序中的findUserById的映射文件。位置config/user.xml Pojo类型参考入门程序insertUser。 包装pojo类型需求综合查询时,可能会根据用户信息、商品信息、订单信息等作为条件进行查询,用户信息中的查询条件由:用户的名称和
2017-11-29 23:51:57 316
原创 Mybatis(三)全局文件配置
全局配置文件概览SqlMapConfig.xml的配置内容和顺序如下(顺序不能乱):Properties(属性)Settings(全局参数设置)typeAliases(类型别名) typeHandlers(类型处理器)objectFactory(对象工厂)plugins(插件)environments(环境信息集合) environment(单个环境
2017-11-29 23:49:40 596
原创 Mybatis(二) 原始dao开发和mapper开发
上传到博客后目录有问题,原目录如下 原始dao开发需求根据用户ID查询用户信息根据用户名称模糊查询用户列表添加用户原始dao开发方式Dao接口 Dao实现类SqlSessionFactory,它的生命周期,应该是应用范围,全局范围只有一个工厂,使用单例模式来实现这个功能。与spring集成之后,由spring来对其进行单例管理。 SqlSe
2017-11-29 23:47:21 298
原创 Mybatis(一)入门程序
对原生态JDBC问题总结原生JDBC代码package com.utils; import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sq
2017-11-28 23:20:08 285
原创 使用Maven编译Spark源码
linux和windows下超详细spark源码编译。包括Maven安装,spark源码编译,导入idea,遇到的问题及解决办法。
2017-11-24 23:35:19 3498 1
转载 Spark性能优化指南——高级篇
转自美团点评技术团队:http://tech.meituan.com/spark-tuning-pro.html 前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。
2017-04-21 19:47:02 461
转载 Spark性能优化指南——基础篇
前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。
2017-04-21 19:40:54 413
转载 保存Hive查询的方法
出处 http://www.cnblogs.com/harvey888/p/6279503.htmlHive的查询(select)结果保存起来,方便进一步处理或查看。这个方法最为常见,笔者也经常使用。sql的查询结果将直接保存到/tmp/out.txt中$ hive -e "select user, login_timestamp from user_login
2017-04-19 19:58:32 416
原创 Spark Streaming 3:转换操作
1.6.2 spark streaming programming guide http://spark.apache.org/docs/1.6.2/streaming-programming-guide.htmlDStreams转换操作 Transformations on DStreams与rdd类似,DStream也有许多转换操作,常用的如下T
2017-04-19 16:45:45 751
原创 Python学习:String转为Datetime类型
from datetime import *t_str = '2015-04-07 19:11:21'd = datetime.strptime(t_str, '%Y-%m-%d %H:%M:%S')print d# 带微秒的时间d2 = datetime.strptime(t_str2, '%Y-%m-%d %H:%M:%S.%f')t_str2 = '2015-0
2017-04-15 22:01:29 1918
原创 Spark Streaming 2:概述
1. 简介基于Spark的流式处理框架SparkStreaming接收Kafka、Flume、HDFS等各种来源的实时输入数据,进行处理后,处理结果保存在HDFS、Databases等各种地方SparkStreaming接收这些实时输入数据流,会将它们按批次划分,然后交给Spark引擎处理,生成按照批次划分的结果流SparkStreaming提供了表示连续数据流的、高度抽象的被称为离散流的
2017-04-15 21:48:32 389
原创 Spark Streaming 1:入门程序windows或linux下监听端口或本地目录的wordcount
Spark Streaming Programming Guide 1.6.2官方指导http://spark.apache.org/docs/1.6.2/streaming-programming-guide.htmlSpark Streaming可以监听本地文件、HDFS、端口、flume、kafka等。 Linux下监听端口9999实现wordcount:
2017-04-15 21:03:13 1261
原创 Pyspark连接数据库
API 数据库以Mysql为例url = “jdbc:mysql://localhost:3306/test”table = “test”mode = properties = {"user":"fan","password":"111111"} 读 df = sqlContext.read.jdbc(url,table,mode,properties)写 d
2017-04-15 17:49:44 6298
原创 pycharm开发spark导入pyspark包
按照网上教程配置好spark后,import pyspark会报错,但是能运行解决:导入\spark\python\lib\中的pyspark和py4j两个包
2017-04-15 17:47:44 2306 1
转载 Java命名规范
1. 类名和接口名 尽量使用名词,且每个单词首字母大写 如:MyClass2. 方法名和变量名 第一个单词小写,其他单词首字母大写,建议使用动词开头 如:getName setName3. 常量名 全部大写,指出其完整含义,最好使用static和final修饰 如:MAX_SIZE
2016-08-18 11:44:35 371
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人