自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 收藏
  • 关注

原创 强化学习论文收藏

强化学习论文

2023-11-09 16:55:44 116

原创 python统计占比

统计数据每列的缺失数量ListData.isnull().sum()看的是缺失的占比,所以在这个的基础之上,我们可以在除一个样本数ListData.isnull().sum()/ListData.shape[0]

2022-04-13 14:38:19 4553

原创 python中in在list和dict中查找效率

import timequery_lst = [-60000,-6000,-600,-60,-6,0,6,60,600,6000,60000]lst = []dic = {}for i in range(1000000): lst.append(i) dic[i] = 1 start = time.time()for v in query_lst: if v in lst: continueend1 = time.time()for v in

2022-02-14 16:38:28 1321

原创 spark将DF的一列转成list

使用collect之后 要取map里第0个元素select("ad_id").collect().map(_(0)).toList

2021-09-07 17:16:01 3643

原创 tf.reduce系列中axis是几就是对第几列处理

import numpy as npIn [4]: np.random.randn(2,3) O

2021-08-27 16:43:19 207

原创 Python :=海象运算符

官网介绍:Assignment expressions(赋值表达式)python 3.8 新特性网址:https://docs.python.org/3/whatsnew/3.8.html对比下面同一种功能,三种写法:if (n := len(a)) > 10: print(f"List is too long ({n} elements, expected <= 10)")#避免调用两次len()if len(a) > 10: print(f"List is

2021-08-03 21:02:28 134

原创 CNN原理简述

一、传统神经网络与卷积神经网络传统多层神经网络传统意义上的多层神经网络是只有输入层、隐藏层、输出层。卷积神经网络卷积神经网络CNN,在原来多层神经网络的基础上,加入了更加有效的特征学习部分,具体操作就是在原来的全连接的层前面加入了部分连接的卷积层与池化层。二、CNN的结构卷积层(Convolutional Layer)池化层(Max Pooling Layer)全连接层(Fully Connected Layer)卷积层(卷积+激活)神经网络(neural networks)的基本组

2021-05-18 10:36:56 2264

原创 几种梯度下降方法对比(BGD&MBGD&SGD)

在求解机器学习算法的模型参数时,梯度下降是最常采用的方法之一。本文主要介绍下几种梯度下降的变种:Mini-batch gradient descent和stochastic gradient descent(SGD)以及对比下Batch gradient descent、mini-batch gradient descent和stochastic gradient descent。一、Batch gradient descent批量梯度下降法(Batch gradient descent), 是梯度下降

2021-05-18 10:33:09 1160

翻译 ESMM算法解读

论文下载:https://link.zhihu.com/?target=https%3A//arxiv.org/pdf/1804.07931.pdf开源实现:https://github.com/alibaba/x-deeplearning/wiki/%E5%85%A8%E7%A9%BA%E9%97%B4%E5%A4%9A%E4%BB%BB%E5%8A%A1%E6%A8%A1%E5%9E%8B(ESMM)一、Introduction 这篇文章的目的是预测新顾客的转化率,相比于传统方法直接对pCVR

2021-04-23 12:44:12 1821

原创 Pyspark写表三步走

def write_table(df_otag_ad_res, df_otag_online, YYYYMMDD, tag_source, tag_table_online): df_otag_ad_res.registerTempTable("res") hql = ''' insert overwrite table ad_tag.f_otag_coverage_monitor_detail partition (dayno=%s,tag_source='%s') sel

2021-04-23 12:02:42 316

原创 Pytorch代码实践之逻辑回归

这里写自定义目录标题逻辑回归 (Logistic Regression)PyTorch 实现逻辑回归代码示例:训练的分类直线的可视化如下:逻辑回归 (Logistic Regression)逻辑回归是线性的二分类模型。模型表达式 ,其中 z=WX+b。f(z) 称为 sigmoid 函数,也被称为 Logistic 函数。函数曲线如下:(横坐标是 z,而 z=WX+b,纵坐标是 y)分类原则如下:当 y<0.5 时,类别为 0;当 0.5 > y$ 时,类别为 1。其中 z=WX+b

2021-04-23 11:59:57 529 1

转载 shell之报错“[[ : not found“解决方法

转载:https://www.cnblogs.com/han-1034683568/p/7211392.html参考:https://blog.csdn.net/lc250123/article/details/90747798sh命令无法识别"[[]]"表达式。解决办法:bash与sh是有区别的,两者是不同的命令,且bash是sh的增强版,而"[[]]"是bash脚本中的命令,因此在执行时,使用sh命令会报错,将sh替换为bash命令即可...

2020-12-09 17:01:03 1220

原创 linux之创建外链

#这里/home/notebook/code/personal/test是没有提前创建的目录,否则会报错ln: failed to create hard link '/home/notebook/data/group/test ' => '/home/notebook/code/personal/test': Invalid cross-device link#将data目录连接到code目录中,在code目录中就可以操作data目录的东西啦~~ln -s /home/notebook/dat

2020-12-09 12:57:12 490

原创 shell之循环运行

function runTask(){YYYYMMDD=$1 v_last_day=`date -d "${1} 1 days ago" "+%Y%m%d"`echo "YYYYMMDD=$YYYYMMDD"echo "v_last_day=$v_last_day" hql=""echo $(date +%Y-%m-%d:%T) "$hql"ExecuteSQL "${hql}" }###################################################

2020-12-07 14:41:12 162

原创 Sql之map字段拆key和value

SELECT log_map, t.key, t.valueFROM ( SELECT log_map FROM table WHERE dayno = 20200920 ) a lateral VIEW explode(log_map) t AS key, value如果log_map里多个key和value,则拆成多行。

2020-09-27 12:02:25 3055

原创 Python报错ZeroDivisionError: float division by zero

报错:ZeroDivisionError: float division by zero原因:被除数为0https://stackoverflow.com/questions/60324105/float-division-by-zero-python

2020-09-24 10:29:25 8684

原创 hdfs之定期清理文件

#!/bin/bash#给hadoop命令赋予advert权限export HADOOP_USER_NAME=advert#HADOOP路径(通过echo $PATH找到),crontab内如果不指定,会提示找不到hadoop命令HADOOP="/usr/local/share/hadoop/bin/hadoop"#将待检测的目录列表写入字典中#目录不应包含父子层级关系declare -A PATH_DICTPATH_DICT=( ["hdfs://test1******"]=90

2020-09-14 18:20:30 864

原创 spark之交互页面避免打印无效连接日志

import org.apache.log4j.Loggerimport org.apache.log4j.LevelLogger.getLogger(“org”).setLevel(Level.OFF)Logger.getLogger(“akka”).setLevel(Level.OFF)

2020-09-07 17:50:34 107

原创 专利检索

SooPAThttp://www.soopat.com/

2020-08-10 19:47:57 163

原创 hive之建立的parquet外表,sparksql可读

方法一:可以用spark sql读取该外表create external table test_table_name (x STRING,y STRING,z STRING ) comment '表的作用' partitioned by (dayno string) ROW FORMAT SERDE 'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'STORED AS INPUTFORMAT"org.apache.had

2020-08-10 17:36:16 623

原创 算法之featureTool

featureToolhttps://github.com/FeatureLabs/featuretools

2020-08-03 10:44:21 292

原创 libsvm的坑

有的接口读libsvm时,默认特征下标从0开始, 有的接口保存为libsvm时,默认下标从1开始。 所以会导致错位。所以使用时要注意是否需要偏移一位对齐数据。一、APIhttps://xgboost.readthedocs.io/en/latest/python/python_api.html注意这里是features的列,不包括lable一、python的xgb读取libsvm格式如果存储libsvm的时候下标从1开始,xgb接口读取,默认下标从0开始,此时默认0为补齐为0。def get

2020-07-31 18:08:28 691 1

原创 spark之拆分train/test/vali集合

val weightList = Array(1 - validationRatio - testRatio, validationRatio, testRatio)val dsList = result.randomSplit(weightList, splitSeed)val dfList = dsList.map(_.toDF)val trainDF = dfList(0)val validDF = dfList(1)val testDF = dfList(2)如果用sql的row_nu

2020-07-27 19:29:40 321

原创 scala之按行拼接

scala之拼接

2020-07-24 17:22:23 473

原创 算法之XGB文档

中文文档地址:http://xgboost.apachecn.org/cn/latest/英文文档地址:http://xgboost.apachecn.org/en/latest/中文文档 GitHub地址:https://github.com/apachecn/xgboost-doc-zh

2020-07-13 17:10:20 313

原创 机器学习课程

http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML19.html 这是台大李宏毅的https://www.coursera.org/learn/machine-learning/home/welcome 这是Andrew NG的

2020-06-08 23:34:27 156

原创 Scala之窗口函数排序

scala窗口函数这排序rankimport org.apache.spark.sql.expressions.Windowimport spark.implicits._val testDF =Seq( ("A", 50), ("B", 39), ("A", 48), ("A", 48), ("B", 35), ("C", 42), ("C", 60), ("C", 45), ("C", 52), ("C", 52)).toDF("name","score"

2020-05-27 21:19:24 686

原创 Python之jupyter网址显示行列

pd.set_option('max_columns',1000)pd.set_option('max_row',300)pd.set_option('display.float_format', lambda x: '%.5f' % x)参考 https://blog.csdn.net/weixin_42811350/article/details/82258529

2020-05-26 11:03:12 270

原创 Scala之判断hdfs路径

import java.net.URIval putPath = new Path(modelPath)val conf = new Configuration()val hdfs = FileSystem.newInstance(URI.create(modelPath),conf)if (hdfs.exits(putPath)){println("1")}else{println("2")}if (hdfs.getFileStatus(putPath).isDirectory){pr

2020-05-18 21:15:12 1431

原创 Scala之求差集,使用RDD

#rdd求差集val monthActiveImei = sql(""“select imei from ad_tag.f_tag_month_active_user where dayno = 20200512"”")val kuaishouYearImei = sql(""“select imei from ad_tmp.test_tag_video_0513_02_kuaishou”"")val monthActiveImeiRdd=monthActiveImei.rdd.map(x =>

2020-05-14 21:07:57 603

原创 linux之读取前几行另存为

一、取文件前几行另存为head -100 test.csv >test_100.csv

2020-04-22 15:36:29 1094

原创 Shell之判断周几

用shell脚本判断周几,方便每周几固定运行代码核心部分,其余日期调过不运行。#主要用:date -d YYYYMMDD +%w#周一到周日的返回值分别是:1,2,3,4,5,6,0#使用如下:YYYYMMDD=20200412flag=`date -d ${YYYYMMDD} +%w`if [ $flag == "0" ]; thenelse echo "非周日,无需...

2020-04-16 12:44:19 3359

原创 Scala之udf(举例内积、交集)

Scala之udf1.两个list(String)做内积定义内积udf,两个list做内积,list不能直接toInt,需要map toInt。//定义内积udfdef getInner(listNameA:String,listNameB:String):Int={ val listIntA = listNameA.split(",").map(_.toInt) val listIn...

2020-03-28 23:15:10 1136

原创 Python之读取数据,处理成字典。

Python之读取大文件到内存中,以字典形式。读取大文件到内存中,以字典形式。方法一:**读取大文件,分批次读取,节省内存,引用了上一篇Python之logging优雅打印日志**#定义全局变量,获取当前路径,并创建存储文件的文件夹abs_path = os.path.abspath('.')DATA_PATH = abs_path + '/dmp_data'if not os.pa...

2020-03-27 19:08:03 2984

原创 Python之logging打印优雅的日志

Python之打印优雅的日志import loggingdef config_logger(log_level=logging.INFO, log_file=''): format = '%(asctime)s %(levelname)s %(name)s:%(lineno)d - %(message)s' if log_file: logging.basic...

2020-03-26 12:56:46 504

原创 Python之hashlib.md5 免踩坑使用

*Python之hashlib.md5,为什么国际化的md5在python这里不一样了?踩了个小坑。定义md5函数import hashlibdef hl_md5(imei): new_md5 = hashlib.md5() new_md5.update(imei.encode(encoding='utf-8')) return new_md5.hexdigest()...

2020-03-25 18:02:02 3325 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除