lc_1123-CSDN博客

原创 pyspark学习（二）--弹性数据集RDD

Spark 围绕RDD的概念(pyspark学习一中已经讲了rdd的概念)展开，RDD是可并行操作的容错性元素集合。创建RDD有两种方式：并行化驱动程序中的现有集合，或在外部系统中引用数据集。1. 获得RDD创建rdd方式主要有两种处理现有集合 Parallelizing Collections读取外部数据 External Datasets1.1 处理现有集合

2018-01-08 21:44:24 623

原创 pyspark学习（一）-- 入门程序word count

1. 学习spark的第一个程序 wordcount先说下本人的开发环境和工具：win10spark 1.6python 2.7pycharm什么是word count？单词计数为什么第一个程序是它，helloword呢？基本上是学习hadoop的mapreduce或spark入门的第一个程序，地位类似于学习写代码时的hello world。言归正传代码

2018-01-08 21:25:26 9192 1

原创 Mybatis(四)映射文件

输入映射本节中的配置文件位置Config/mapper/UserMapper.xml简单类型参考入门程序中的findUserById的映射文件。位置config/user.xml Pojo类型参考入门程序insertUser。包装pojo类型需求综合查询时，可能会根据用户信息、商品信息、订单信息等作为条件进行查询，用户信息中的查询条件由：用户的名称和

2017-11-29 23:51:57 349

原创 Mybatis(三)全局文件配置

全局配置文件概览SqlMapConfig.xml的配置内容和顺序如下（顺序不能乱）：Properties（属性）Settings（全局参数设置）typeAliases（类型别名） typeHandlers（类型处理器）objectFactory（对象工厂）plugins（插件）environments（环境信息集合） environment（单个环境

2017-11-29 23:49:40 689

原创 Mybatis(二) 原始dao开发和mapper开发

上传到博客后目录有问题，原目录如下原始dao开发需求根据用户ID查询用户信息根据用户名称模糊查询用户列表添加用户原始dao开发方式Dao接口 Dao实现类SqlSessionFactory，它的生命周期，应该是应用范围，全局范围只有一个工厂，使用单例模式来实现这个功能。与spring集成之后，由spring来对其进行单例管理。 SqlSe

2017-11-29 23:47:21 518

原创 Mybatis（一）入门程序

对原生态JDBC问题总结原生JDBC代码package com.utils; import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sq

2017-11-28 23:20:08 315

原创使用Maven编译Spark源码

linux和windows下超详细spark源码编译。包括Maven安装，spark源码编译，导入idea，遇到的问题及解决办法。

2017-11-24 23:35:19 3544 1

转载 Spark性能优化指南——高级篇

转自美团点评技术团队：http://tech.meituan.com/spark-tuning-pro.html 前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。

2017-04-21 19:47:02 485

转载 Spark性能优化指南——基础篇

前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。

2017-04-21 19:40:54 438

转载机器学习练习三：逻辑回归

Part 3这篇文章是一系列 Andrew Ng 在 Coursera 上的机器学习

2017-04-19 20:44:52 1606

转载机器学习练习二：多元线性回归

Ng 机器学习多元线性回归

2017-04-19 20:36:11 1114

转载机器学习练习一：简单线性回归

简单线性回归

2017-04-19 20:27:23 922

转载保存Hive查询的方法

出处 http://www.cnblogs.com/harvey888/p/6279503.htmlHive的查询（select）结果保存起来，方便进一步处理或查看。这个方法最为常见，笔者也经常使用。sql的查询结果将直接保存到/tmp/out.txt中$ hive -e "select user, login_timestamp from user_login

2017-04-19 19:58:32 458

原创 Spark Streaming 3：转换操作

1.6.2 spark streaming programming guide http://spark.apache.org/docs/1.6.2/streaming-programming-guide.htmlDStreams转换操作 Transformations on DStreams与rdd类似，DStream也有许多转换操作，常用的如下T

2017-04-19 16:45:45 786

原创 Python学习：String转为Datetime类型

from datetime import *t_str = '2015-04-07 19:11:21'd = datetime.strptime(t_str, '%Y-%m-%d %H:%M:%S')print d# 带微秒的时间d2 = datetime.strptime(t_str2, '%Y-%m-%d %H:%M:%S.%f')t_str2 = '2015-0

2017-04-15 22:01:29 1955

原创 Spark Streaming 2：概述

1. 简介基于Spark的流式处理框架SparkStreaming接收Kafka、Flume、HDFS等各种来源的实时输入数据，进行处理后，处理结果保存在HDFS、Databases等各种地方SparkStreaming接收这些实时输入数据流，会将它们按批次划分，然后交给Spark引擎处理，生成按照批次划分的结果流SparkStreaming提供了表示连续数据流的、高度抽象的被称为离散流的

2017-04-15 21:48:32 419

原创 Spark Streaming 1：入门程序windows或linux下监听端口或本地目录的wordcount

Spark Streaming Programming Guide 1.6.2官方指导http://spark.apache.org/docs/1.6.2/streaming-programming-guide.htmlSpark Streaming可以监听本地文件、HDFS、端口、flume、kafka等。 Linux下监听端口9999实现wordcount：

2017-04-15 21:03:13 1330

原创 Pyspark连接数据库

API 数据库以Mysql为例url = “jdbc:mysql://localhost:3306/test”table = “test”mode = properties = {"user":"fan","password":"111111"} 读 df = sqlContext.read.jdbc(url,table,mode,properties)写 d

2017-04-15 17:49:44 6359

原创 pycharm开发spark导入pyspark包

按照网上教程配置好spark后，import pyspark会报错，但是能运行解决：导入\spark\python\lib\中的pyspark和py4j两个包

2017-04-15 17:47:44 2384 1

转载 Java命名规范

1. 类名和接口名尽量使用名词，且每个单词首字母大写如：MyClass2. 方法名和变量名第一个单词小写，其他单词首字母大写，建议使用动词开头如：getName setName3. 常量名全部大写，指出其完整含义，最好使用static和final修饰如：MAX_SIZE

2016-08-18 11:44:35 397

lc_1123的博客