- 博客(13)
- 资源 (21)
- 收藏
- 关注
原创 距离度量:欧氏距离,余弦距离,KL散度,马氏距离(含python代码实现)
1. 欧氏距离绝对距离。2. 余弦距离角度。归一化后的欧式距离和余弦距离关系:参考:欧氏距离和余弦相似度的区别是什么?
2020-07-29 14:23:42 14792
原创 pySpark DataFrame上/下采样的方法
方法一:df_class_0 = df_train[df_train['label'] == 0]df_class_1 = df_train[df_train['label'] == 1]df_class_1_over = df_class_1.sample(count_class_0, replace=True)df_test_over = pd.concat([df_class_0, df_class_1_over], axis=0)方法二:train_1= train_initial.w
2020-07-13 21:36:29 5676 1
原创 pySpark Dataframe stddev()和stddev_pop区别
stddev: 返回样本的标准偏差stddev_pop: 返回样本的方差参考:简书
2020-07-13 01:16:09 1834
原创 pySpark repartition和coalesce的区别
搜尋結果網路上的精選摘要In Spark or PySpark repartition is used to increase or decrease the RDD, DataFrame, Dataset partitions whereas the Spark coalesce is used to only decrease the number of partitions in an efficient way.2020年4月12日Spark Repartition() vs Coalesce
2020-07-12 17:57:58 5840
原创 python中的时间戳和time, datetime模块
import timetimestamp = time.time() #1594475666.4027507#转换成localtimetime_local = time.localtime(timestamp)#转换成新的时间格式(2020-07-11 21:54:26)time.strftime("%Y-%m-%d %H:%M:%S",time_local)
2020-07-11 22:02:35 2171
原创 pySpark kill掉集群的任务
连接上集群,执行yarn application -kill application_1511930647873_6100参考:Stack Overflow
2020-07-11 16:26:38 917
原创 pySpark 关于SparkContext和SQLContext等模块
1. pyspark.sql模块是Spark SQL and DataFrames重要的类。pyspark.sql.SparkSession :是DataFrame and SQL 的主入口,比如可以createDataFrame.pyspark.sql.DataFrame :分布式的数据集合。pyspark.sql.Column DataFrame的列.pyspark.sql.Row DataFrame的行.pyspark.sql.GroupedData 聚合方法, 返回 DataFrame
2020-07-10 19:55:36 1565
原创 pySpark DataFrame简介
1. 列名类型pyspark.sql.types moduleDataTypeNullTypeStringTypeBinaryTypeBooleanTypeDateTypeTimestampTypeDecimalTypeDoubleTypeFloatTypeByteTypeIntegerTypeLongTypeShortTypeArrayTypeMapTypeStructFieldStructType
2020-07-06 21:03:09 576
原创 LeetCode44. 通配符匹配(python,动态规划) 通用解法
1. 题目给定一个字符串 (s) 和一个字符模式 § ,实现一个支持 ‘?’ 和 ‘*’ 的通配符匹配。‘?’ 可以匹配任何单个字符。‘*’ 可以匹配任意字符串(包括空字符串)。两个字符串完全匹配才算匹配成功。说明:s 可能为空,且只包含从 a-z 的小写字母。p 可能为空,且只包含从 a-z 的小写字母,以及字符 ? 和 *。来源:力扣(LeetCode) 链接:https://leetcode-cn.com/problems/wildcard-matching著作权归领扣网络所有。
2020-07-05 17:37:03 702
原创 Spark实现xgboost多分类(python)
1. spark-xgboost Java包主要需要xgboost4j-spark-0.90.jar, xgboost4j-0.90.jar, 以及 调用代码 sparkxgb.zip.GitHub上面有xgboost java 实现的包,链接:xgboost;但我省事,用了zhihu xgboost的分布式版本(pyspark)使用测试 的下载链接。注意,xgboost 的版本号 和sparkxgb内的内容对应。2. xgboost多分类我是使用pyspark 运行,通过 pyspark --
2020-07-02 12:56:06 8998 1
原创 LeetCode718. 最长重复子数组(python)
1. 问题给两个整数数组 A 和 B ,返回两个数组中公共的、长度最长的子数组的长度。示例 1:输入:A: [1,2,3,2,1]B: [3,2,1,4,7]输出: 3解释:长度最长的公共子数组是 [3, 2, 1]。说明:1 <= len(A), len(B) <= 10000 <= A[i], B[i] < 100来源:力扣(LeetCode)链接:https://leetcode-cn.com/problems/maximum-length-of
2020-07-01 01:14:55 720
python程序设计(浙江大学).rar
2020-10-22
生成对抗网络画猫python
2018-12-25
深度卷积生成对抗网络TensorFlow代码实现
2018-12-25
深度学习与自然语言处理
2018-12-13
python qt gui快速编程PyQt编程指南 pdf扫描版及随书源代码源码.zip
2018-03-04
MySQL编译文件直接下载安装mysqlclient-1.3.7-cp35-none-win_amd64.whl
2018-01-28
Python for Probability,Statistics,and Machine Learning.pdf
2018-01-11
TensorFlow_ Large-Scale Machine Learning
2017-12-17
数据结构基础期末考试 2005-2012.7z
2017-12-09
小波变换详解及应用2页PPT
2017-11-27
C++编写的图书馆管理系统
2017-11-22
arduinoTimerOneLibrary_v1.1.0
2017-11-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人