自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(123)
  • 问答 (2)
  • 收藏
  • 关注

原创 如何打印博客(save as PDF)

具体步骤1、在需要打印的CSDN博客页空白处右键,选择“检查/审查元素”;2、点击上面一栏中的console;3、将下面的代码粘贴 ,回车 ,就会自动跳转到打印界面。源代码(function(){$("#side").remove();$("#comment_title, #comment_list, #comment_bar, #comment_form, .announce, #ad_cen, #ad_bot").remove();$(".nav_top_2011, #header,

2020-12-16 21:56:18 959

原创 CSDN写博客的实用tips

文章目录1 字体格式1.1 颜色1.2 大小1.3 格式1.4 高亮2 页面内跳转3 自动生成纯文本表格4 总结1 字体格式1.1 颜色可以根据需要设置,字体的颜色并叠加 加粗 或高亮字体颜色替换格式:<font color="#FF0000">**此处是加粗的替换文本**</font> # 红色显示效果:此处是加粗的替换文本推荐字体颜色:浅红色文字: <font color="##FF0000">浅红色文字</font>深.

2020-10-12 21:19:19 353

原创 【Error解决实录】报错及解决:KERNEL DOES NOT EXIST: xxxxxxxxx

报错(topvenv)..../feature190919>jupyter notebook[I 11:11:59.261 NotebookApp] Serving notebooks from local directory: ..../feature190919[I 11:11:59.261 NotebookApp] The Jupyter Notebook is running at:[I 11:11:59.261 NotebookApp] http://localhost:8888/?

2022-05-10 10:59:31 2131

转载 【Error解决实录】zsh: no matches found:

step0:确定文件类型因为我用的shell是zsh,所以我操作的配置文件是.zshrc文件,如果你不清楚自己目前使用的shell是哪种,终端输入命令:echo$0此命令的作用:查看当前登陆用户正在使用的shell假如你使用的shell是bash,那么你需要操作的对应的配置文件就是.bashrc以此类推,xx的shell对应的就是.xxrc配置文件step1:查看home目录中是否有.zshrc文件终端输入命令:ls -al .zshrc此命令行的作用:查看home目录.

2022-02-09 17:12:56 993

转载 【math】凸数据集 & 非凸数据集

凸数据集如果一个数据集D是凸的,那么对于其中任意的两点x,y∈D,θ∈R, 0≤θ≤1,则 θ x + ( 1 − θ ) y ∈ D表达式θx+(1−θ)y被称作点x , y 的 凸性组合(convex combination)简单来说,数据集D中任意两点的连线上的点,也会在数据集D内,那么数据集D就是一个凸集。如下图,左边非凸,右边为凸...

2022-02-07 15:54:07 3585

转载 【Python笔记】if __name__ == ‘__main__‘:什么时候用

结论运行当前py文件时,执行if __name__ == '__main__':之前 & 之后的程序;调用当前py文件时,执行if __name__ == '__main__':之前 的程序.说明一个python文件通常有两种使用方法:作为脚本直接执行import 到其他的 python 脚本中被调用(模块重用)执行因此if __name__ == '__main__':的作用就是控制上面两种情况执行代码的过程。运行当前py文件时,执行if __name__ == '__mai

2022-02-07 15:29:17 3409

原创 【Python笔记】Python 操作 Excel 命令大全

模板# coding=utf-8import xlwings as xw# 设置程序不可见运行app = xw.App(visible=False, add_book=False)# =============== 第一部分,创建并写入数据 =====================# 创建一个test2.xlsx表,并写入数据# wb = app.books.add()# ws = wb.sheets.active# arr = []# for col in range(1,4):

2021-12-06 17:46:13 750

转载 【ML】线性回归 の 数据标准化

文章目录1 What:数据标准化 vs 中心化2 Why:为什么要数据标准化3 When:什么时候做/不做数据标准化Do 数据标准化 的情况Undo 数据标准化 的情况线性回归无需标准化 の 数学证明线性回归无需标准化 の 实验证明不采用标准化采用标准化对比 标准化与无标准化 の 预测值4 其他:线性回归的易错点1 What:数据标准化 vs 中心化标准化: 数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的.

2021-11-30 18:17:09 3081

转载 【ML】线性回归 の 不受异常值影响的线性回归方案

文章目录问题发现解决方案Solution1:R/python Least Absolute Deviation(LAD)Solution2:python statsmodels RLMSolution3:python sklearn RANSACSolution4:python sklearn Theil-SenSolution5:python sklearn Huber Regression问题发现因为高频的数据波动性很大,经常出现坏点,于是思考如何对这样的坏点做linear regression.

2021-11-30 14:37:09 611

转载 【随记】Mac 取消系统更新的红点

1、打开【系统偏好设置】— 点击【软件更新】2、取消选择【自动保持我的Mac最新】3、然后点击【高级】按钮,取消所有的勾选。4、通过上面步骤设置后,发现底部的小红点还在,则需打开终端,执行如下2段代码操作:defaults write com.apple.systempreferences AttentionPrefBundleIDs 0Killall Dock...

2021-11-02 10:27:50 3447

原创 【Python笔记】倾向评分匹配(Propensity Score Matching)实战

文章目录1 一个SPSS案例:带你理解PSM2 Python实现3 R实现1 一个SPSS案例:带你理解PSM倾向性评分案例实战2 Python实现python倾向匹配得分_手把手教你做倾向评分匹配 -PSM3 R实现R数据分析:倾向性评分匹配实例操作倾向性评分匹配完整实例(R实现)...

2021-10-26 15:49:13 3762

原创 【Python笔记】正则表达式基础和应用

0 引言0.1 正则の定义、功能正则,就是正则表达式,英文是 Regular Expression,简称 RE。正则其实就是一种描述文本内容组成规律的表示方式。在编程语言中,正则常常用来简化文本处理的逻辑。在 Linux 命令中,它也可以帮助我们轻松地查找或编辑文件的内容,甚至实现整个文件夹中所有文件的内容替换,比如 grep、egrep、sed、awk、vim 等。另外,在各种文本编辑器中,比如 Atom,Sublime Text 或 VS Code 等,在查找或替换的时候也会使用到它。0.2

2021-09-16 18:31:27 2447 1

原创 【DA】广告归因窗口期 图解

1 移动归因窗口期Eg1Q:用户在网络平台A点击了一次并下载、激活安装app,平台A设置的点击归因窗口期为7天,但没有获取设备号(IMEI/IDFA),问这次归因是非自然量、还是自然量?归因方式是什么?A:因为没有获取设备号,所以归因方式是电子指纹识别,用户是在点击了平台A上的广告进行下载和安装激活,所以归因属于非自然安装。Eg2Q:用户在平台A点击了广告并下载但没安装,平台A的归因窗口期设置为7天,此次获取了回传的设备号,用户在第十天进行了激活安装,问是非自然量安装还是自然量安装?归

2021-09-02 18:38:29 1046

原创 【DA】广告归因问题——常见模型 & 选择原则

文章目录1 广告归因の定义2 广告归因の方式3 广告归因の常见归因模型3.1 最终互动模型3.2 最终非直接点击模型3.3 首次互动模型3.4 位置归因模型(U形归因/排名归因)3.5 线性归因模型3.6 时间衰减归因模型3.7 马尔科夫模型3.8 模型选择の原则:选择最适合的而不是最好的4 更多归因模型1 广告归因の定义广告归因问题,一般指多屏或多渠道的情况下,产生的广告转化的归属问题。广告公司在 微信 和 今日头条 都投了某产品的广告,然后用户在微信上看到了这个广告,没有下单;过几天在今日.

2021-09-02 18:19:46 1369

转载 【随记】SparkSession 什么时候需要用close/stop方法?

1 问题发现以下两段代码之间的区别是什么?Example1 用了 spark.closeExample2 没用 spark.closeobject Example1 { def main(args: Array[String]): Unit = { try { val spark = SparkSession.builder.getOrCreate // spark code here } finally {

2021-09-01 16:54:06 5511

转载 【Python笔记】Sparksql get_json_object

get_json_object(string json_string, string path)第一个参数填写json对象变量第二个参数使用$表示json变量标识,然后用 . 或 [] 读取对象或数组;如果输入的json字符串无效,那么返回NULL。data 为 test表中的字段,数据结构如下:data ={ "store": { "fruit":[{"weight":8,"type":"apple"}, {"weight":9,"type":"pear

2021-08-22 21:21:11 1324

转载 【Python笔记】Sparksql from_json

I am trying to use from_json() to convert the JSON to a DataFrame.import org.apache.spark.sql.functions._val schemaExample2 = new StructType() .add("", ArrayType(new StructType()

2021-08-22 17:10:33 1649

原创 【DA】一网打尽 常用shell命令(续更)

文章目录cd:改变目录路径pwd:查看当前的路径mkdir:创建目录touch:创建文件rm:删除文件或文件夹cp:复制文件mv:移动文件cat/tail/head/more:查看文件内容其他BLOGcd:改变目录路径# 进入到/tmp目录下$ cd /tmp/# 回退一个路径$ cd ..# 回退到根目录$ cd ~# ~ 表示:root目录,# 表示:超级管理员pwd:查看当前的路径$ cd work$ pwd/home/dudu/workmkdir:创建目录#.

2021-08-16 16:32:46 156

原创 【Python笔记】urljoin() 解析

释义:urljoin() :连接两个参数的url,将第二个参数中缺的部分用第一个参数的补齐,如果第二个有完整的路径,则以第二个为主urljoin(base, url, allow_fragments=True)应用:组接url# 连接两个参数的url, 将第二个参数中缺的部分用第一个参数的补齐,如果第二个有完整的路径,则以第二个为主from urllib.parse import urljoin print(urljoin('www.baidu.com', '?category=2#comm

2021-07-29 15:57:04 3509

原创 【Python笔记】Spark高级操作 の json复杂和嵌套数据结构的操作

Spark高级操作之json复杂和嵌套数据结构的操作SparkSQL 操作 Json 格式数据Spark SQL操作JSON字段小Tips

2021-07-05 23:53:10 759 2

转载 【数据库笔记】Hive中rlike, like, not like, regexp区别与使用详解

转自:Hive中rlike,like,not like,regexp区别与使用详解1 like的使用详解1.1 语法规则格式是A like B,其中A是字符串,B是表达式,表示能否用B去完全匹配A的内容,换句话说能否用B这个表达式去表示A的全部内容,注意这个和rlike是有区别的。返回的结果是True/False.B只能使用简单匹配符号 _和%,”_”表示任意单个字符,字符”%”表示任意数量的字符like的匹配是按字符逐一匹配的,使用B从A的第一个字符开始匹配,所以即使有一个字符不同都不行。.

2021-07-02 18:06:42 2686

原创 【DA】用户粘性指标:日活/月活

1 指标理解1.1 定义 & 适用场景定义: 日活/月活是表示用户参与度的一个常用指标,它是每日活跃用户与每月活跃用户的比率,用百分比来表示。通常认为,日活/月活在 20% 以上的 app 是不错的,超过 50% 的被形容为世界级。适用场景:对消费类和底层的 SaaS 产品来说,这个指标非常有用,但是除了这种日常使用的消息/社交类产品外,其实对其他类别都不太有用。这些产品当然很有价值,但他们不是唯一有价值的产品。1.2 其他类别指什么?并非所有产品都必须要非常日常才显得有价值。还有一类

2021-06-29 23:34:14 6041

原创 【Python笔记】pyspark dataframe の udf

详见: pyspark dataframe之udf应用from pyspark.sql import *from pyspark.sql.functions import *from pyspark.sql.types import *mission = "xxx"spark = SparkSession.builder.appName(mission).enableHiveSupport().getOrCreate()l =[("A", 16), ("B", 21), ("B".

2021-06-24 16:41:03 282

转载 【Python笔记】pyspark.sql库

文章目录1 pyspark.sql.SQLContext1.1 applySchema(rdd, schema)、inferSchema(rdd, samplingRatio=None)1.2 cacheTable(tableName)1.3 clearCache()1.4 createDataFrame(data, schema=None, samplingRatio=None)1.5 createExternalTable(tableName, path=None, source=None, sche.

2021-06-20 23:16:47 3414

转载 【Python笔记】pyspark.sql.functions

文章目录1 pyspark.sql.functions.abs(col)2 pyspark.sql.functions.acos(col)3 pyspark.sql.functions.add_months(start, months)4 pyspark.sql.functions.approxCountDistinct(col, rsd=None)5 pyspark.sql.functions.array(*cols)6 pyspark.sql.functions.array_contains(col,.

2021-06-20 23:14:23 4149

转载 【Python笔记】pyspark.sql.types

文章目录1 pyspark.sql.types.DataType1.1 fromInternal(obj)1.2 json()1.3 jsonValue()1.4 needConversion()1.5 simpleString()1.6 toInternal(obj)2 pyspark.sql.types.NullType3 pyspark.sql.types.StringType4 pyspark.sql.types.BinaryType5 pyspark.sql.types.BooleanType6.

2021-06-20 22:14:12 1230

转载 【Python笔记】spark.read.csv

1 问题发现from pyspark.sql.types import StructField, StructType, StringType# 定义 spark df 的表结构schema = StructType( [ StructField('ip', StringType(), True), StructField('city', StringType(), True) ])ip_city_path = job+'/abcdefg'ip_

2021-06-16 15:22:16 6150

转载 【数据库笔记】Spark 小点汇总

大数据基本架构了解架构能更清晰地认识每个组件,数据处理流程,用作流程设计和技术选型数据传输层Flume 专业的日志收集工具,对象一般是 文件类型;Sqoop 是专门采集结构化数据的,对象一般是 数据库;Kafka 实际上是一个 MQ,当做缓存,常用于高并发;它既能传输,也能存储,只是存储空间有限,默认 1 G(可配置),且有存储期限,默认 7 天(可配置);其实还有一些不太常用的工具,如 Logstash、DataX数据存储层MySQL 关系型数据库,存储结构化数据,还有很多其他关系型数

2021-06-14 00:40:52 371

原创 【Python笔记】Spark Sql max+structの作用

疑问:max+struct的作用?test.map(x => tester(x._1, x._2, x._3, x._4, x._5)) .toDS .select($"ac", $"sk", struct($"num1", struct($"time", $"num1")).as("grp")) .groupBy($"ac", $"sk") .agg(max($"grp")).show(false)解答:Struct结构用于按字典顺序排序,从左往右地按字段比较

2021-05-31 17:07:08 651

转载 【Python笔记】pyspark中的行列互转

1 基础数据from pyspark.sql import SparkSessionspark = SparkSession.builder.appName('JupyterPySpark').enableHiveSupport().getOrCreate()import pyspark.sql.functions as F# 原始数据 test = spark.createDataFrame([('2018-01','项目1',100), ('2018-01','项目2',200), ('201

2021-05-30 20:46:15 520

转载 【Python笔记】SparkSQL の 窗口函数

1 spark.sql中の应用1.1 基础数据from pyspark.sql.types import *schema = StructType().add('name', StringType(), True).add('create_time', TimestampType(), True).add('department', StringType(), True).add('salary', IntegerType(), True)df = spark.createDataFrame([

2021-05-30 20:36:06 418

原创 【Python笔记】jupyter notebook文件批量下载

第一步:把需要打包下载的文件放在一个文件夹中第二步:在该文件夹内新建一个ipynb,复制并运行以下代码import osimport tarfiledef recursive_files(dir_name='.', ignore=None): for dir_name,subdirs,files in os.walk(dir_name): if ignore and os.path.basename(dir_name) in ignore: c.

2021-05-27 17:32:19 4339

原创 【Python笔记】Parquet介绍及简单使用

https://www.cnblogs.com/sandea/p/11919376.html

2021-05-25 22:58:49 9023

转载 【Python笔记】Pandas自定义排序

Method1:Mapimport pandas as pddf = pd.DataFrame({ 'cloth_id': [1001, 1002, 1003, 1004, 1005, 1006], 'size': ['S', 'XL', 'M', 'XS', 'L', 'S'],}) cloth_id size 0 1001 S

2021-05-25 15:29:04 1686

原创 【数据库笔记】sql round(x,-3)

sql round(x,-3)[TEST@ORA1] SQL>select round(4321,-3) from dual;ROUND(4321,-3)--------------4000[TEST@ORA1] SQL>select round(20,-3) from dual;ROUND(20,-3)------------0[TEST@ORA1] SQL>select round(4500,-3) from dual;ROUND(4500,-3)--------

2021-05-18 18:03:47 140

转载 【Python笔记】Spark获取DataFrame中列的方式--col,$,column,apply

文章目录1 官方说明2 使用时涉及到的的包3 df.col , df['col'] , col('col')之间的区别3.1 df.col3.2 df['col']3.3 col('col')1 官方说明df("columnName") // On a specific DataFrame.col("columnName") // A generic column no yet associated with a DataFrame.col("colum.

2021-05-18 18:02:24 4096

转载 【数据库笔记】Impala 使用札记

日期处理碰到了烦人日期需求,有:分区字段dt(str)时间戳ts(double) 形如 XXXXXXXXXX.XXXXX需要将时间戳转换成local_dt 进行计算,解决方式:因为只要日期(date),所以可以先把double的小数点后面砍掉,cast转成int;然后将数字int转成时间格式。from_unixtime(cast(ts as int),'yyyyMMdd') as log_date其他的常用函数获取当前日期now()select now()rst:2019-10-2

2021-05-13 11:33:46 717

原创 【Python笔记】VScode 奇技淫巧

源函数查看提取方法点击????,选择extract method归并同一库导入的包不用选择,直接在编辑器右键,选择 排序import选择解释器方法1:shift+command+p,输入python:select,选择select interpreter方法2:左下角点击-切换创建新的窗口command+\放大缩小界面放大:command+shift+ + 或 command+ +缩小:command+shift+ -建立Jupyter Notebookshif

2021-05-12 16:22:04 273 1

原创 【随记】Jupyter notebook怎么查看函数使用方法?

第一种,在方法后面加问号,然后执行,如 print?第二种,光标移动到方法上面,按shift+tab,弹出文档,连续按选择文档详细程度

2021-05-05 20:06:26 2880 2

原创 【数据库笔记】hive查询结果导出到本地

1 未登陆hive客户端【数据库笔记】VM15运行hive の 命令就是说只是启动了hadoop这种方法无法指定生成csv文件的路径,会生成在hadoop启动的文件目录下方法一:bin/hive -ebin/hive -e "set hive.cli.print.header=true;use kaikeba;SELECT a.user_name, sum(a.pay_amount), sum(a.refund_amount)FROM (

2021-04-20 19:57:27 217

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除