自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 资源 (1)
  • 收藏
  • 关注

原创 在pyspark上使用xgboost

xgb是机器学习业界常用模型,在spark上不像RF等有现成的build in model,所以需要自己弄一下,不过也不是很难。1. 预备工作首先需要下两个jar文件,xgboost4j-spark-0.72.jar 和xgboost4j-0.72.jar,链接如下。之后要下载一个sparkxgb.zip,里面包括了pyspark代码去call jar文件以及set up一些参数。xgboost4j: https://mvnrepository.com/artifact/ml.dmlc/xg..

2020-11-04 16:19:26 4767 15

原创 SQL学习

2020/04/04IN/LIKEWhere column_name IN (value1,value2)Like 中的%类似于正则表达式中的* _匹配任意单个字符 like如果没有%和_,就相当于 = 的效果case when是流程控制语句,可以在SQL 语句中适用case when来获取更加准确和直接的结果。SQL 中的case when类似于ifelse语法有两...

2020-04-04 15:38:38 173

原创 leetcode刷题笔记(LinkedList相关)

206.Reverse Linked ListReverse a singly linked list.Example:Input: 1->2->3->4->5->NULLOutput: 5->4->3->2->1->NULL# Definition for singly-linked list.# class ...

2020-04-04 15:01:17 186

原创 leetcode刷题笔记(Tree相关)

104. Maximum Depth of Binary TreeGiven a binary tree, find its maximum depth.The maximum depth is the number of nodes along the longest path from the root node down to the farthest leaf node.Not...

2020-04-04 14:44:58 132

原创 MS

Project1.AML有label的: - down sampling /xgboost/Hql无label的: - Autoencoder2.CRANE: 改正features / add new features3. Branchpiitsstop- R/R shiny/Xgboost explainer/Shap value4. Spark- 改写...

2020-02-29 15:02:00 188

原创 Pyspark 常用命令

1. read files# define schemafrom pyspark.sql.types import StructType,StructFieldfrom pyspark.sql.types import DoubleType,StringType,IntegerTypeschema = StructType([ StructField('x1' = St...

2020-02-22 17:40:37 566

原创 Python Practice

1. Lamda# Create a list of strings: spellsspells = ["protego", "accio", "expecto patronum", "legilimens"]# Use map() to apply a lambda function over spells: shout_spellsshout_spells = map(lambda...

2019-12-27 13:53:46 144

原创 Spark学习笔记(Structure Streaming)

相当于在旧的dataframe上并上新的数据微批处理:先写入日志持续处理:异步处理操作步骤# 1.导入pyspark模块From pyspark.sql import SparkSessionFrom pyspark.sql.functions import splitFrom pyspark.sql.functions import explode# 2.创建s...

2019-10-27 13:11:37 476

原创 Spark SQL

Hive 原理 把SQL 转化成底层的MapReduce结构RDD只能看见对象看不见对象中的内容; dataframe可以看见内容SparkSession支持从不同的数据源加载数据 并把数据转换为dataframe支持把dataframe转换成SQL context自身的表然后使用SQL来操作数据# 创建Sparksession对象from pyspark import Sp...

2019-10-15 11:01:24 135

原创 Spark MLib的使用

Spark MLibIntroMapReduce 不适合做机器学习-> 反复读写磁盘的开销/不适合机器学习需要的大量迭代计算。MLib中只包含能够在集群上运行良好的并行算法,有些算法不能并行执行,所以无法包含在MLib中。package:spark.mlib基于RDD;spark.ml基于dataframe。机器学习流水线dataframe/trans...

2019-10-13 14:32:20 580

原创 NLP 基础

1.re模块1.将正则表达式的字符串形式编译为Pattern实例 2.使用Pattern实例处理文本并获得匹配结果(一个Match实例) 3.使用Match实例获得信息,进行其他的操作。 import re # 将正则表达式编译成Pattern对象pattern = re.compile(r'hello.*\!')# 使用Pattern匹配文本,获得匹配结果,无法匹配时将返回N...

2019-10-06 12:20:09 83

原创 python算法与数据结构学习笔记

排序算法1. 冒泡排序冒泡排序,从左到右,分别比较两个相邻数字的大小,如果后面一个数小于前面的数就进行交换。def bubble_sort(seq): l = len(seq) for i in range(l-1): for j in range(l-1-i): if seq[j] > seq[j+1]: ...

2019-09-11 22:46:37 213

原创 python基础

变量:1.无需声明 2. 变量类型动态改变0b01001(二进制) 0o344(八进制)0xaf(十六进制)字符串含有引号:1. 用\转义 2. 用不同引号括起来字符串拼接:数值先用str()/repr()转换,用”+“拼接; 长字符串用三个引号拼接,或‘\n’换行;但r开头,‘\n’不会变成换行符字节串: bytes()函数/encode()方法,或者在字符串前加‘b...

2019-09-11 22:00:01 158

原创 Leetcode刷题笔记(python3版)

EASY LEVEL:1108.Defanging an IP Address题目:Given a valid (IPv4) IPaddress, return a defanged version of that IP address. AdefangedIP addressreplaces every period"."with"[.]".Example 1:...

2019-09-01 16:57:42 549

原创 Spark学习笔记(RDD编程基础)

1. RDD创建 spark core从文件读取 >>> lines = sc.textFile("file:///user/data_path") # localScala> val lines = sc.textFile("hdfs://localhost:9000/user/data_path") # from hdfs>>> li...

2019-08-27 15:23:17 942

原创 Spark学习笔记(基本概念与环境部署)

21/08/201910.Spark概述spark速度快的原因1.内存计算 2.有向无环图通用性很强:以前需要1.SQL查询:spark SQL实现 2.流式计算:spark stremming 实现 3.机器学习: spark MLib 4.图算法软件:spark GraphX 实...

2019-08-21 23:20:38 185

原创 Market Basket Analysis Using Association Rules in R

learn to use association rules in R, refer to the book: Machine Learning with RApriori property: all subsets of a frequent itemset must also be frequent.to reduce the association rule

2017-11-08 13:06:41 500

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除