杨羊不是羊-CSDN博客

原创 python统计占比

统计数据每列的缺失数量ListData.isnull().sum()看的是缺失的占比，所以在这个的基础之上，我们可以在除一个样本数ListData.isnull().sum()/ListData.shape[0]

2022-04-13 14:38:19 4780

import timequery_lst = [-60000,-6000,-600,-60,-6,0,6,60,600,6000,60000]lst = []dic = {}for i in range(1000000): lst.append(i) dic[i] = 1 start = time.time()for v in query_lst: if v in lst: continueend1 = time.time()for v in

2022-02-14 16:38:28 1425

原创 spark将DF的一列转成list

使用collect之后要取map里第0个元素select("ad_id").collect().map(_(0)).toList

2021-09-07 17:16:01 3918

原创 tf.reduce系列中axis是几就是对第几列处理

import numpy as npIn [4]: np.random.randn(2,3) O

2021-08-27 16:43:19 284

原创 Python :=海象运算符

官网介绍：Assignment expressions（赋值表达式）python 3.8 新特性网址：https://docs.python.org/3/whatsnew/3.8.html对比下面同一种功能，三种写法：if (n := len(a)) > 10: print(f"List is too long ({n} elements, expected <= 10)")#避免调用两次len()if len(a) > 10: print(f"List is

2021-08-03 21:02:28 226

原创 CNN原理简述

一、传统神经网络与卷积神经网络传统多层神经网络传统意义上的多层神经网络是只有输入层、隐藏层、输出层。卷积神经网络卷积神经网络CNN，在原来多层神经网络的基础上，加入了更加有效的特征学习部分，具体操作就是在原来的全连接的层前面加入了部分连接的卷积层与池化层。二、CNN的结构卷积层(Convolutional Layer)池化层(Max Pooling Layer)全连接层(Fully Connected Layer)卷积层（卷积+激活）神经网络(neural networks)的基本组

2021-05-18 10:36:56 2593

原创几种梯度下降方法对比(BGD&MBGD&SGD)

在求解机器学习算法的模型参数时，梯度下降是最常采用的方法之一。本文主要介绍下几种梯度下降的变种：Mini-batch gradient descent和stochastic gradient descent（SGD）以及对比下Batch gradient descent、mini-batch gradient descent和stochastic gradient descent。一、Batch gradient descent批量梯度下降法（Batch gradient descent），是梯度下降

2021-05-18 10:33:09 1396

翻译 ESMM算法解读

论文下载：https://link.zhihu.com/?target=https%3A//arxiv.org/pdf/1804.07931.pdf开源实现：https://github.com/alibaba/x-deeplearning/wiki/%E5%85%A8%E7%A9%BA%E9%97%B4%E5%A4%9A%E4%BB%BB%E5%8A%A1%E6%A8%A1%E5%9E%8B(ESMM)一、Introduction 这篇文章的目的是预测新顾客的转化率，相比于传统方法直接对pCVR

2021-04-23 12:44:12 2385

原创 Pyspark写表三步走

def write_table(df_otag_ad_res, df_otag_online, YYYYMMDD, tag_source, tag_table_online): df_otag_ad_res.registerTempTable("res") hql = ''' insert overwrite table ad_tag.f_otag_coverage_monitor_detail partition (dayno=%s,tag_source='%s') sel

2021-04-23 12:02:42 413

原创 Pytorch代码实践之逻辑回归

这里写自定义目录标题逻辑回归 (Logistic Regression)PyTorch 实现逻辑回归代码示例：训练的分类直线的可视化如下：逻辑回归 (Logistic Regression)逻辑回归是线性的二分类模型。模型表达式，其中 z=WX+b。f(z) 称为 sigmoid 函数，也被称为 Logistic 函数。函数曲线如下：(横坐标是 z，而 z=WX+b，纵坐标是 y)分类原则如下：当 y<0.5 时，类别为 0；当 0.5 > y$ 时，类别为 1。其中 z=WX+b

2021-04-23 11:59:57 647 1

转载 shell之报错“[[ : not found“解决方法

转载：https://www.cnblogs.com/han-1034683568/p/7211392.html参考：https://blog.csdn.net/lc250123/article/details/90747798sh命令无法识别"[[]]"表达式。解决办法：bash与sh是有区别的，两者是不同的命令，且bash是sh的增强版，而"[[]]"是bash脚本中的命令，因此在执行时，使用sh命令会报错，将sh替换为bash命令即可...

2020-12-09 17:01:03 1449

原创 linux之创建外链

#这里/home/notebook/code/personal/test是没有提前创建的目录，否则会报错ln: failed to create hard link '/home/notebook/data/group/test ' => '/home/notebook/code/personal/test': Invalid cross-device link#将data目录连接到code目录中，在code目录中就可以操作data目录的东西啦~~ln -s /home/notebook/dat

2020-12-09 12:57:12 587

原创 shell之循环运行

function runTask(){YYYYMMDD=$1 v_last_day=`date -d "${1} 1 days ago" "+%Y%m%d"`echo "YYYYMMDD=$YYYYMMDD"echo "v_last_day=$v_last_day" hql=""echo $(date +%Y-%m-%d:%T) "$hql"ExecuteSQL "${hql}" }###################################################

2020-12-07 14:41:12 227

原创 Sql之map字段拆key和value

SELECT log_map, t.key, t.valueFROM ( SELECT log_map FROM table WHERE dayno = 20200920 ) a lateral VIEW explode(log_map) t AS key, value如果log_map里多个key和value，则拆成多行。

2020-09-27 12:02:25 3444

原创 Python报错ZeroDivisionError: float division by zero

报错：ZeroDivisionError: float division by zero原因：被除数为0https://stackoverflow.com/questions/60324105/float-division-by-zero-python

2020-09-24 10:29:25 9007

原创 hdfs之定期清理文件

#!/bin/bash#给hadoop命令赋予advert权限export HADOOP_USER_NAME=advert#HADOOP路径(通过echo $PATH找到)，crontab内如果不指定，会提示找不到hadoop命令HADOOP="/usr/local/share/hadoop/bin/hadoop"#将待检测的目录列表写入字典中#目录不应包含父子层级关系declare -A PATH_DICTPATH_DICT=( ["hdfs://test1******"]=90

2020-09-14 18:20:30 1050

原创 spark之交互页面避免打印无效连接日志

import org.apache.log4j.Loggerimport org.apache.log4j.LevelLogger.getLogger(“org”).setLevel(Level.OFF)Logger.getLogger(“akka”).setLevel(Level.OFF)

2020-09-07 17:50:34 177

原创专利检索

SooPAThttp://www.soopat.com/

2020-08-10 19:47:57 215

原创 hive之建立的parquet外表，sparksql可读

方法一：可以用spark sql读取该外表create external table test_table_name (x STRING,y STRING,z STRING ) comment '表的作用' partitioned by (dayno string) ROW FORMAT SERDE 'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'STORED AS INPUTFORMAT"org.apache.had

2020-08-10 17:36:16 757

原创算法之featureTool

featureToolhttps://github.com/FeatureLabs/featuretools

2020-08-03 10:44:21 415

原创 libsvm的坑

有的接口读libsvm时，默认特征下标从0开始，有的接口保存为libsvm时，默认下标从1开始。所以会导致错位。所以使用时要注意是否需要偏移一位对齐数据。一、APIhttps://xgboost.readthedocs.io/en/latest/python/python_api.html注意这里是features的列，不包括lable一、python的xgb读取libsvm格式如果存储libsvm的时候下标从1开始，xgb接口读取，默认下标从0开始，此时默认0为补齐为0。def get

2020-07-31 18:08:28 851 1

原创 spark之拆分train/test/vali集合

val weightList = Array(1 - validationRatio - testRatio, validationRatio, testRatio)val dsList = result.randomSplit(weightList, splitSeed)val dfList = dsList.map(_.toDF)val trainDF = dfList(0)val validDF = dfList(1)val testDF = dfList(2)如果用sql的row_nu

2020-07-27 19:29:40 417

原创 scala之按行拼接

scala之拼接

2020-07-24 17:22:23 553

原创算法之XGB文档

中文文档地址：http://xgboost.apachecn.org/cn/latest/英文文档地址：http://xgboost.apachecn.org/en/latest/中文文档 GitHub地址：https://github.com/apachecn/xgboost-doc-zh

2020-07-13 17:10:20 393

原创机器学习课程

http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML19.html 这是台大李宏毅的https://www.coursera.org/learn/machine-learning/home/welcome 这是Andrew NG的

2020-06-08 23:34:27 224

原创 Scala之窗口函数排序

scala窗口函数这排序rankimport org.apache.spark.sql.expressions.Windowimport spark.implicits._val testDF =Seq( ("A", 50), ("B", 39), ("A", 48), ("A", 48), ("B", 35), ("C", 42), ("C", 60), ("C", 45), ("C", 52), ("C", 52)).toDF("name","score"

2020-05-27 21:19:24 801

原创 Python之jupyter网址显示行列

pd.set_option('max_columns',1000)pd.set_option('max_row',300)pd.set_option('display.float_format', lambda x: '%.5f' % x)参考 https://blog.csdn.net/weixin_42811350/article/details/82258529

2020-05-26 11:03:12 351

原创 Scala之判断hdfs路径

import java.net.URIval putPath = new Path(modelPath)val conf = new Configuration()val hdfs = FileSystem.newInstance(URI.create(modelPath),conf)if (hdfs.exits(putPath)){println("1")}else{println("2")}if (hdfs.getFileStatus(putPath).isDirectory){pr

2020-05-18 21:15:12 1532

原创 Scala之求差集，使用RDD

#rdd求差集val monthActiveImei = sql(""“select imei from ad_tag.f_tag_month_active_user where dayno = 20200512"”")val kuaishouYearImei = sql(""“select imei from ad_tmp.test_tag_video_0513_02_kuaishou”"")val monthActiveImeiRdd=monthActiveImei.rdd.map(x =>

2020-05-14 21:07:57 689

原创 linux之读取前几行另存为

一、取文件前几行另存为head -100 test.csv >test_100.csv

2020-04-22 15:36:29 1259

原创 Shell之判断周几

用shell脚本判断周几，方便每周几固定运行代码核心部分，其余日期调过不运行。#主要用：date -d YYYYMMDD +%w#周一到周日的返回值分别是：1,2,3,4,5,6,0#使用如下：YYYYMMDD=20200412flag=`date -d ${YYYYMMDD} +%w`if [ $flag == "0" ]; thenelse echo "非周日，无需...

2020-04-16 12:44:19 3615

原创 Scala之udf(举例内积、交集)

Scala之udf1.两个list(String)做内积定义内积udf，两个list做内积，list不能直接toInt，需要map toInt。//定义内积udfdef getInner(listNameA:String,listNameB:String):Int={ val listIntA = listNameA.split(",").map(_.toInt) val listIn...

2020-03-28 23:15:10 1281

原创 Python之读取数据，处理成字典。

Python之读取大文件到内存中，以字典形式。读取大文件到内存中，以字典形式。方法一：**读取大文件，分批次读取，节省内存，引用了上一篇Python之logging优雅打印日志**#定义全局变量，获取当前路径，并创建存储文件的文件夹abs_path = os.path.abspath('.')DATA_PATH = abs_path + '/dmp_data'if not os.pa...

2020-03-27 19:08:03 3153

原创 Python之logging打印优雅的日志

Python之打印优雅的日志import loggingdef config_logger(log_level=logging.INFO, log_file=''): format = '%(asctime)s %(levelname)s %(name)s:%(lineno)d - %(message)s' if log_file: logging.basic...

2020-03-26 12:56:46 629

原创 Python之hashlib.md5 免踩坑使用

*Python之hashlib.md5，为什么国际化的md5在python这里不一样了？踩了个小坑。定义md5函数import hashlibdef hl_md5(imei): new_md5 = hashlib.md5() new_md5.update(imei.encode(encoding='utf-8')) return new_md5.hexdigest()...

2020-03-25 18:02:02 3483 1

杨羊不是羊的博客

原创强化学习论文收藏