汪喵行-CSDN博客

原创在pyspark上使用xgboost

xgb是机器学习业界常用模型，在spark上不像RF等有现成的build in model，所以需要自己弄一下，不过也不是很难。1. 预备工作首先需要下两个jar文件，xgboost4j-spark-0.72.jar 和xgboost4j-0.72.jar，链接如下。之后要下载一个sparkxgb.zip，里面包括了pyspark代码去call jar文件以及set up一些参数。xgboost4j: https://mvnrepository.com/artifact/ml.dmlc/xg..

2020-11-04 16:19:26 4926 15

原创 SQL学习

2020/04/04IN/LIKEWhere column_name IN (value1,value2)Like 中的%类似于正则表达式中的* _匹配任意单个字符 like如果没有%和_,就相当于 = 的效果case when是流程控制语句，可以在SQL 语句中适用case when来获取更加准确和直接的结果。SQL 中的case when类似于ifelse语法有两...

2020-04-04 15:38:38 205

原创 leetcode刷题笔记（LinkedList相关）

206.Reverse Linked ListReverse a singly linked list.Example:Input: 1->2->3->4->5->NULLOutput: 5->4->3->2->1->NULL# Definition for singly-linked list.# class ...

2020-04-04 15:01:17 226

原创 leetcode刷题笔记（Tree相关）

104. Maximum Depth of Binary TreeGiven a binary tree, find its maximum depth.The maximum depth is the number of nodes along the longest path from the root node down to the farthest leaf node.Not...

2020-04-04 14:44:58 165

原创 MS

Project1.AML有label的： - down sampling /xgboost/Hql无label的: - Autoencoder2.CRANE: 改正features / add new features3. Branchpiitsstop- R/R shiny/Xgboost explainer/Shap value4. Spark- 改写...

2020-02-29 15:02:00 217

原创 Pyspark 常用命令

1. read files# define schemafrom pyspark.sql.types import StructType,StructFieldfrom pyspark.sql.types import DoubleType,StringType,IntegerTypeschema = StructType([ StructField('x1' = St...

2020-02-22 17:40:37 607

原创 Python Practice

1. Lamda# Create a list of strings: spellsspells = ["protego", "accio", "expecto patronum", "legilimens"]# Use map() to apply a lambda function over spells: shout_spellsshout_spells = map(lambda...

2019-12-27 13:53:46 203

原创 Spark学习笔记（Structure Streaming）

相当于在旧的dataframe上并上新的数据微批处理：先写入日志持续处理：异步处理操作步骤# 1.导入pyspark模块From pyspark.sql import SparkSessionFrom pyspark.sql.functions import splitFrom pyspark.sql.functions import explode# 2.创建s...

2019-10-27 13:11:37 508

原创 Spark SQL

Hive 原理把SQL 转化成底层的MapReduce结构RDD只能看见对象看不见对象中的内容; dataframe可以看见内容SparkSession支持从不同的数据源加载数据并把数据转换为dataframe支持把dataframe转换成SQL context自身的表然后使用SQL来操作数据# 创建Sparksession对象from pyspark import Sp...

2019-10-15 11:01:24 167

原创 Spark MLib的使用

Spark MLibIntroMapReduce 不适合做机器学习-> 反复读写磁盘的开销/不适合机器学习需要的大量迭代计算。MLib中只包含能够在集群上运行良好的并行算法，有些算法不能并行执行，所以无法包含在MLib中。package：spark.mlib基于RDD；spark.ml基于dataframe。机器学习流水线dataframe/trans...

2019-10-13 14:32:20 625

原创 NLP 基础

1.re模块1.将正则表达式的字符串形式编译为Pattern实例 2.使用Pattern实例处理文本并获得匹配结果（一个Match实例） 3.使用Match实例获得信息，进行其他的操作。 import re # 将正则表达式编译成Pattern对象pattern = re.compile(r'hello.*\!')# 使用Pattern匹配文本，获得匹配结果，无法匹配时将返回N...

2019-10-06 12:20:09 100

原创 python算法与数据结构学习笔记

排序算法1. 冒泡排序冒泡排序，从左到右，分别比较两个相邻数字的大小，如果后面一个数小于前面的数就进行交换。def bubble_sort(seq): l = len(seq) for i in range(l-1): for j in range(l-1-i): if seq[j] > seq[j+1]: ...

2019-09-11 22:46:37 243

原创 python基础

变量：1.无需声明 2. 变量类型动态改变0b01001(二进制) 0o344(八进制)0xaf（十六进制）字符串含有引号：1. 用\转义 2. 用不同引号括起来字符串拼接：数值先用str()/repr()转换，用”+“拼接；长字符串用三个引号拼接，或‘\n’换行；但r开头，‘\n’不会变成换行符字节串： bytes()函数/encode()方法，或者在字符串前加‘b...

2019-09-11 22:00:01 198

原创 Leetcode刷题笔记(python3版)

EASY LEVEL:1108.Defanging an IP Address题目：Given a valid (IPv4) IPaddress, return a defanged version of that IP address. AdefangedIP addressreplaces every period"."with"[.]".Example 1:...

2019-09-01 16:57:42 629

原创 Spark学习笔记（RDD编程基础）

1. RDD创建　spark core从文件读取　>>> lines = sc.textFile("file:///user/data_path") # localScala> val lines = sc.textFile("hdfs://localhost:9000/user/data_path") # from hdfs>>> li...

2019-08-27 15:23:17 987

原创 Spark学习笔记（基本概念与环境部署）

21/08/201910.Spark概述spark速度快的原因1.内存计算 2.有向无环图通用性很强：以前需要1.SQL查询：spark SQL实现 2.流式计算：spark stremming 实现 3.机器学习： spark MLib 4.图算法软件：spark GraphX 实...

2019-08-21 23:20:38 212

原创 Market Basket Analysis Using Association Rules in R

learn to use association rules in R, refer to the book: Machine Learning with RApriori property: all subsets of a frequent itemset must also be frequent.to reduce the association rule

2017-11-08 13:06:41 537