自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

杨鑫newlife的专栏

算法就是我的灵魂

  • 博客(16)
  • 资源 (192)
  • 收藏
  • 关注

原创 Spark学习笔记整理 --- 2018-07-29【Spark算子的键值对RDD】

常用的键值对转换操作常用的键值对转换操作包括reduceByKey()、groupByKey()、sortByKey()、join()、cogroup()等,下面我们通过实例来介绍。1.reduceByKey(func)reduceByKey(func)的功能是,使用func函数合并具有相同键的值。比如,reduceByKey((a,b) => a+b),有四个键值对(“spar...

2018-07-29 18:31:22 539

原创 Spark中算子groupByKey() 与 reduceByKey(func) 区别

reduceByKey(func)的功能是,使用func函数合并具有相同键的值。比如,reduceByKey((a,b) => a+b),有四个键值对(“spark”,1)、(“spark”,2)、(“hadoop”,3)和(“hadoop”,5) groupByKey()的功能是,对具有相同键的值进行分组。比如,对四个键值对(“spark”,1)、(“spark”,2)、(“...

2018-07-29 18:24:48 1035

原创 Java 实现JDBC的ImpalaUtil

import com.alibaba.fastjson.JSONObject;import org.apache.commons.logging.Log;import org.apache.commons.logging.LogFactory;import java.sql.*;import java.util.ArrayList;/** * @author yangxin_rya...

2018-07-29 17:55:37 1582

原创 Python实现将Excel转换成为image

我的主要思路是:Excel -> Html -> Image代码如下:# -*- coding:utf-8 -*-__author__ = 'YangXin'import sysimport pandas as pdimport codecsimport imgkitreload(sys)sys.setdefaultencoding('utf-8')#...

2018-07-29 17:47:51 8767 9

原创 scala实现 SparkStreaming 实时处理日志写入Kudu

import kafka.serializer.StringDecoderimport org.apache.kudu.spark.kudu.KuduContextimport org.apache.log4j.Loggerimport org.apache.spark.sql.SQLContextimport org.apache.spark.streaming.kafka.Kafka...

2018-07-26 15:36:30 3467 1

原创 Python实现将DataFrame写入Mysql

# -*- coding:utf-8 -*-__author__ = 'yangxin_ryan'from sqlalchemy import create_engineimport pandas as pd# MySQLUtil include:# df_write_mysql -> DataFrame write into mysql xx database xx ta...

2018-07-26 15:21:21 10869 2

原创 解决 --- client does not support authentication

切换到mysql数据库然后mysql> alter user 'root'@'localhost' identified with mysql_native_password by '123456';Query OK, 0 rows affected (0.10 sec)mysql> flush privileges;Query OK, 0 rows affected (...

2018-07-25 17:04:08 20050 17

原创 Scala函数什么时候应该使用特质而不是抽象类?

如果你想定义一个类似接口的类型,你可能会在特质和抽象类之间难以取舍。这两种形式都可以让你定义一个类型的一些行为,并要求继承者定义一些其他行为。一些经验法则:优先使用特质。一个类扩展多个特质是很方便的,但却只能扩展一个抽象类。 如果你需要构造函数参数,使用抽象类。因为抽象类可以定义带参数的构造函数,而特质不行。例如,你不能说trait t(i: Int) {},参数i是非法的。...

2018-07-19 15:47:02 434

原创 scala 构造函数

class Calculator(brand: String) { // 构造函数 val color: String = if (brand == "TI") { "blue" } else if (brand == "HP") { "black" } else { "write" } // 自定义函数 def add(m: Int, n:I...

2018-07-19 15:41:15 868

原创 scala函数柯里化代码块

// 柯里化函数代码块 def mul3(x: Int, y: Int, z: Int) = x * y * z def mul4(x: Int)(y: Int)(z: Int) = x * y * z // 柯里化后的函数,每次传进去一个函数,一共传三次 (mul3 _).curried ...

2018-07-19 15:25:14 360

原创 Python解析XML文件内容

例子:<?xml version="1.0" encoding="UTF-8" ?><report> <query db="hive" name="account_2"> aaa </query> <template>XXX日报<

2018-07-18 20:39:03 551

原创 Kudu学习笔记 --- Kudu与Hbase区别与联系

前提 hbase的物理模型是master和regionserver,regionserver存储的是region,region里边很有很多store,一个store对应一个列簇,一个store中有一个memstore和多个storefile,store的底层是hfile,hfile是hadoop的二进制文件,其中HFile和HLog是hbase两大文件存储格式,HFile用于存储数据,HLo...

2018-07-18 16:07:24 1955

原创 Spark学习笔记整理 --- 2018-07-17【计算RDD中元素的时候为什么要持久化】

在Spark中,RDD采用惰性求值的机制,每次遇到行动操作,都会从头开始执行计算。如果整个Spark程序中只有一次行动操作,这当然不会有什么问题。但是,在一些情形下,我们需要多次调用不同的行动操作,这就意味着,每次调用行动操作,都会触发一次从头开始的计算。这对于迭代计算而言,代价是很大的,迭代计算经常需要多次重复使用同一组数据。比如,下面就是多次计算同一个DD的例子:scala> v...

2018-07-17 21:05:12 788

原创 Spark学习笔记整理 --- 2018-07-17 【RDD编程】

RDD创建RDD可以通过两种方式创建:* 第一种:读取一个外部数据集。比如,从本地文件加载数据集,或者从HDFS文件系统、HBase、Cassandra、Amazon S3等外部数据源中加载数据集。Spark可以支持文本文件、SequenceFile文件(Hadoop提供的 SequenceFile是一个由二进制序列化过的key/value的字节流组成的文本存储文件)和其他符合Hadoop ...

2018-07-17 21:01:39 364

原创 Centos Impala安装

Impala安装安装包下载:http://archive.cloudera.com/beta/impala-kudu/redhat/。根据你的系统选对应的包哈 下载impala-kudu 1.1.0版本相关的rpm包:http://archive.cloudera.com/beta/impala-kudu/redhat/6/x86_64/impala-kudu/1.1.0/RPMS...

2018-07-17 20:24:29 3859 1

原创 Centos kudu安装笔记

kudu有两种安装方式1.CDH界面安装2.使用开源的来安装下载下列rpm包后,按顺序安装: sudo yum install cyrus-sasl-plain lsbsudo rpm -ivh /tmp/kudu-1.2.0+cdh5.10.0+0-1.cdh5.10.0.p0.56.el6.x86_64.rpmsudo rpm -ivh /tmp/kudu-mast...

2018-07-17 20:22:36 826

斯坦福文本分类朴素贝叶斯实现课程讲义2021

斯坦福文本分类朴素贝叶斯算法实现课程讲义2021

2022-06-19

An Introduction to HTAP

An Introduction to HTAP

2022-04-26

datax.tar.gz

阿里开源ETL工具DataX

2021-08-22

ImpalaJDBC41.jar

ImpalaJDBC

2021-08-22

hive_jdbc_2.6.2.1002.zip

hive_jdbc_2.6.2.1002

2021-08-22

ClouderaHiveODBC.dmg

ClouderaHiveODBC

2021-08-22

JVM内存管理知识思维导图.png

JVM内存管理知识思维导图.png

2020-05-22

深入浅出Otter与Canal.pdf

深入浅出Otter与Canal.pdf深入浅出Otter与Canal.pdf深入浅出Otter与Canal.pdf深入浅出Otter与Canal.pdf

2020-02-29

weworkapi_python-master.zip

企业微信加密解密函数代码示例weworkapi_python-master.zipweworkapi_python-master.zipweworkapi_python-master.zipweworkapi_python-master.zip

2020-01-20

实时指标计算引擎-Spark-Part_1_杨鑫_2019-12-19.pptx

实时指标计算引擎-Spark-Part_1_杨鑫

2019-12-19

Griffin数据质量管理技术调研.pdf

Griffin数据质量管理技术调研.pdf

2019-12-09

Kylin多维分析.pdf

Kylin多维分析.pdf

2019-12-05

CDH5.17版本Hue接入HBase步骤.pdf

CDH5.17版本Hue接入HBase步骤.pdfC

2019-11-28

Apache Kylin竞品分析.pdf

Apache Kylin竞品分析.pdf

2019-11-18

_bz2.cpython-36m-x86_64-linux-gnu.so

_bz2.cpython-36m-x86_64-linux-gnu.so,

2019-11-07

presto-cli-0.223-executable.jar

presto-cli-0.223-executable.jar

2019-11-07

数据仓库规范设计.pdf

数据仓库规范设计.pdf

2019-11-04

基础算法-LP算法_线性规划问题.pptx

基础算法-LP算法_线性规划问题.pptx,基础算法-LP算法_线性规划问题.pptx,基础算法-LP算法_线性规划问题.pptx,基础算法-LP算法_线性规划问题.pptx

2019-10-17

基础算法-递归-杨鑫20191010.pptx

基础算法-递归-杨鑫20191010.pptx,基础算法-递归-杨鑫20191010.pptx,基础算法-递归-杨鑫20191010.pptx

2019-10-17

基础算法 - 动态规划-2019-08-01.pptx

基础算法 - 动态规划-2019-08-01.pptx,基础算法 - 动态规划-2019-08-01.pptx,基础算法 - 动态规划-2019-08-01.pptx,基础算法 - 动态规划-2019-08-01.pptx

2019-10-17

KNN实现水果分类的数据集

KNN实现水果分类的数据集KNN实现水果分类的数据集,KNN实现水果分类的数据集,KNN实现水果分类的数据集

2019-10-17

机器学习算法-神经网络LSTM

机器学习算法-神经网络.pptx

2019-09-21

ML-朴素贝叶斯-2019-07-01.pdf

ML-朴素贝叶斯-2019-07-01.pdf

2019-07-02

udfs-2.0.4-SNAPSHOT.jar

Presto的UDF函数,基本可以覆盖Hive的大多数情况。

2019-06-26

Python3实现KNN的三个例子(包含数据集),水果分类,识别手写数字,找相似的朋友

Python3实现KNN的三个例子(包含数据集),水果分类,识别手写数字,找相似的朋友

2019-03-06

Presto资源管理Rest API 文档

Presto资源管理Rest API 文档

2018-12-01

ACM学习路线导图

ACM学习路线导图

2018-11-14

Hadoop ResourceManager API

Hadoop ResourceManager API

2018-11-07

Kylin调研报告

Kylin (MOLAP - Multidimensional OnlineAnalytical Processing)调研报告

2018-10-29

ALL in python学习PPT

ALL in python学习PPT

2018-10-28

presto-cli

presto-cli,presto-cli,

2018-10-22

python pep8编码规范

python pep8编码规范

2018-10-17

Confluence-5.6.6-language-pack-zh_CN.jar

Confluence-5.6.6-language-pack-zh_CN.jar,防止confluence乱码的jar包

2018-09-30

AzkabanAPI接口文档汇总

AzkabanAPI接口文档汇总

2018-09-26

MachineLearning-相似度距离公式

MachineLearning-相似度距离公式

2018-09-21

Azkaban元数据库分析

Azkaban元数据库分析,

2018-09-19

Goods: Organizing Google’s Datasets

Goods: Organizing Google’s Datasets,Goods: Organizing Google’s Datasets

2018-09-06

Kudu- Storage for Fast Analytics on Fast Data

Kudu- Storage for Fast Analytics on Fast Data,Kudu- Storage for Fast Analytics on Fast Data

2017-12-21

mongodb-linux-x86_64-3.4.6

mongodb-linux-x86_64-3.4.6,很好用的客户端,请下载使用。

2017-10-17

mongo-hadoop-core-2.0.0

mongo-hadoop-core-2.0.0.jar x x s s sa a a s dd . d d

2017-10-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除