阳光快乐普信男-CSDN博客

原创如何打印博客（save as PDF）

具体步骤1、在需要打印的CSDN博客页空白处右键，选择“检查/审查元素”；2、点击上面一栏中的console；3、将下面的代码粘贴，回车，就会自动跳转到打印界面。源代码(function(){$("#side").remove();$("#comment_title, #comment_list, #comment_bar, #comment_form, .announce, #ad_cen, #ad_bot").remove();$(".nav_top_2011, #header,

2020-12-16 21:56:18 1113

原创 CSDN写博客的实用tips

文章目录1 字体格式1.1 颜色1.2 大小1.3 格式1.4 高亮2 页面内跳转3 自动生成纯文本表格4 总结1 字体格式1.1 颜色可以根据需要设置，字体的颜色并叠加加粗或高亮字体颜色替换格式：<font color="#FF0000">**此处是加粗的替换文本**</font> # 红色显示效果：此处是加粗的替换文本推荐字体颜色：浅红色文字： <font color="##FF0000">浅红色文字</font>深.

2020-10-12 21:19:19 535

原创【Error解决实录】报错及解决：KERNEL DOES NOT EXIST: xxxxxxxxx

报错(topvenv)..../feature190919>jupyter notebook[I 11:11:59.261 NotebookApp] Serving notebooks from local directory: ..../feature190919[I 11:11:59.261 NotebookApp] The Jupyter Notebook is running at:[I 11:11:59.261 NotebookApp] http://localhost:8888/?

2022-05-10 10:59:31 3026 2

转载【Error解决实录】zsh: no matches found:

step0：确定文件类型因为我用的shell是zsh,所以我操作的配置文件是.zshrc文件，如果你不清楚自己目前使用的shell是哪种，终端输入命令：echo$0此命令的作用：查看当前登陆用户正在使用的shell假如你使用的shell是bash，那么你需要操作的对应的配置文件就是.bashrc以此类推，xx的shell对应的就是.xxrc配置文件step1：查看home目录中是否有.zshrc文件终端输入命令：ls -al .zshrc此命令行的作用：查看home目录.

2022-02-09 17:12:56 1244

转载【math】凸数据集 & 非凸数据集

凸数据集如果一个数据集D是凸的，那么对于其中任意的两点x,y∈D，θ∈R, 0≤θ≤1,则 θ x + ( 1 − θ ) y ∈ D表达式θx+(1−θ)y被称作点x , y 的凸性组合(convex combination)简单来说，数据集D中任意两点的连线上的点，也会在数据集D内，那么数据集D就是一个凸集。如下图，左边非凸，右边为凸...

2022-02-07 15:54:07 4710

转载【Python笔记】if name == ‘main‘：什么时候用

结论运行当前py文件时，执行if __name__ == '__main__'：之前 & 之后的程序；调用当前py文件时，执行if __name__ == '__main__'：之前的程序.说明一个python文件通常有两种使用方法：作为脚本直接执行import 到其他的 python 脚本中被调用（模块重用）执行因此if __name__ == '__main__'：的作用就是控制上面两种情况执行代码的过程。运行当前py文件时，执行if __name__ == '__mai

2022-02-07 15:29:17 3877

原创【Python笔记】Python 操作 Excel 命令大全

模板# coding=utf-8import xlwings as xw# 设置程序不可见运行app = xw.App(visible=False, add_book=False)# =============== 第一部分,创建并写入数据 =====================# 创建一个test2.xlsx表，并写入数据# wb = app.books.add()# ws = wb.sheets.active# arr = []# for col in range(1,4):

2021-12-06 17:46:13 850

转载【ML】线性回归の数据标准化

文章目录1 What：数据标准化 vs 中心化2 Why：为什么要数据标准化3 When：什么时候做/不做数据标准化Do 数据标准化的情况Undo 数据标准化的情况线性回归无需标准化の数学证明线性回归无需标准化の实验证明不采用标准化采用标准化对比标准化与无标准化の预测值4 其他：线性回归的易错点1 What：数据标准化 vs 中心化标准化：数据的标准化(normalization)是将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到，去除数据的.

2021-11-30 18:17:09 3952

转载【ML】线性回归の不受异常值影响的线性回归方案

文章目录问题发现解决方案Solution1：R/python Least Absolute Deviation(LAD)Solution2：python statsmodels RLMSolution3：python sklearn RANSACSolution4：python sklearn Theil-SenSolution5：python sklearn Huber Regression问题发现因为高频的数据波动性很大，经常出现坏点，于是思考如何对这样的坏点做linear regression.

2021-11-30 14:37:09 893

转载【随记】Mac 取消系统更新的红点

1、打开【系统偏好设置】— 点击【软件更新】2、取消选择【自动保持我的Mac最新】3、然后点击【高级】按钮，取消所有的勾选。4、通过上面步骤设置后，发现底部的小红点还在，则需打开终端，执行如下2段代码操作：defaults write com.apple.systempreferences AttentionPrefBundleIDs 0Killall Dock...

2021-11-02 10:27:50 5012

原创【Python笔记】倾向评分匹配（Propensity Score Matching）实战

文章目录1 一个SPSS案例：带你理解PSM2 Python实现3 R实现1 一个SPSS案例：带你理解PSM倾向性评分案例实战2 Python实现python倾向匹配得分_手把手教你做倾向评分匹配 -PSM3 R实现R数据分析：倾向性评分匹配实例操作倾向性评分匹配完整实例（R实现）...

2021-10-26 15:49:13 5301

原创【Python笔记】正则表达式基础和应用

0 引言0.1 正则の定义、功能正则，就是正则表达式，英文是 Regular Expression，简称 RE。正则其实就是一种描述文本内容组成规律的表示方式。在编程语言中，正则常常用来简化文本处理的逻辑。在 Linux 命令中，它也可以帮助我们轻松地查找或编辑文件的内容，甚至实现整个文件夹中所有文件的内容替换，比如 grep、egrep、sed、awk、vim 等。另外，在各种文本编辑器中，比如 Atom，Sublime Text 或 VS Code 等，在查找或替换的时候也会使用到它。0.2

2021-09-16 18:31:27 4249 1

原创【DA】广告归因窗口期图解

1 移动归因窗口期Eg1Q：用户在网络平台A点击了一次并下载、激活安装app，平台A设置的点击归因窗口期为7天，但没有获取设备号（IMEI/IDFA），问这次归因是非自然量、还是自然量？归因方式是什么？A：因为没有获取设备号，所以归因方式是电子指纹识别，用户是在点击了平台A上的广告进行下载和安装激活，所以归因属于非自然安装。Eg2Q：用户在平台A点击了广告并下载但没安装，平台A的归因窗口期设置为7天，此次获取了回传的设备号，用户在第十天进行了激活安装，问是非自然量安装还是自然量安装？归

2021-09-02 18:38:29 1486

原创【DA】广告归因问题——常见模型 & 选择原则

文章目录1 广告归因の定义2 广告归因の方式3 广告归因の常见归因模型3.1 最终互动模型3.2 最终非直接点击模型3.3 首次互动模型3.4 位置归因模型（U形归因/排名归因）3.5 线性归因模型3.6 时间衰减归因模型3.7 马尔科夫模型3.8 模型选择の原则：选择最适合的而不是最好的4 更多归因模型1 广告归因の定义广告归因问题，一般指多屏或多渠道的情况下，产生的广告转化的归属问题。广告公司在微信和今日头条都投了某产品的广告，然后用户在微信上看到了这个广告，没有下单；过几天在今日.

2021-09-02 18:19:46 2378

转载【随记】SparkSession 什么时候需要用close/stop方法？

1 问题发现以下两段代码之间的区别是什么？Example1 用了 spark.closeExample2 没用 spark.closeobject Example1 { def main(args: Array[String]): Unit = { try { val spark = SparkSession.builder.getOrCreate // spark code here } finally {

2021-09-01 16:54:06 6407

转载【Python笔记】Sparksql get_json_object

get_json_object(string json_string, string path)第一个参数填写json对象变量第二个参数使用$表示json变量标识，然后用 . 或 [] 读取对象或数组；如果输入的json字符串无效，那么返回NULL。data 为 test表中的字段，数据结构如下：data ={ "store": { "fruit":[{"weight":8,"type":"apple"}, {"weight":9,"type":"pear

2021-08-22 21:21:11 1507

转载【Python笔记】Sparksql from_json

I am trying to use from_json() to convert the JSON to a DataFrame.import org.apache.spark.sql.functions._val schemaExample2 = new StructType() .add("", ArrayType(new StructType()

2021-08-22 17:10:33 1772

原创【DA】一网打尽常用shell命令（续更）

文章目录cd：改变目录路径pwd：查看当前的路径mkdir：创建目录touch：创建文件rm：删除文件或文件夹cp：复制文件mv：移动文件cat/tail/head/more：查看文件内容其他BLOGcd：改变目录路径# 进入到/tmp目录下$ cd /tmp/# 回退一个路径$ cd ..# 回退到根目录$ cd ~# ~ 表示：root目录，# 表示：超级管理员pwd：查看当前的路径$ cd work$ pwd/home/dudu/workmkdir：创建目录#.

2021-08-16 16:32:46 337

原创【Python笔记】urljoin() 解析

释义：urljoin() ：连接两个参数的url，将第二个参数中缺的部分用第一个参数的补齐,如果第二个有完整的路径，则以第二个为主urljoin(base, url, allow_fragments=True)应用：组接url# 连接两个参数的url, 将第二个参数中缺的部分用第一个参数的补齐,如果第二个有完整的路径，则以第二个为主from urllib.parse import urljoin print(urljoin('www.baidu.com', '?category=2#comm

2021-07-29 15:57:04 3744

原创【Python笔记】Spark高级操作の json复杂和嵌套数据结构的操作

Spark高级操作之json复杂和嵌套数据结构的操作SparkSQL 操作 Json 格式数据Spark SQL操作JSON字段小Tips

2021-07-05 23:53:10 1034 2

转载【数据库笔记】Hive中rlike, like, not like, regexp区别与使用详解

转自：Hive中rlike,like,not like，regexp区别与使用详解1 like的使用详解1.1 语法规则格式是A like B,其中A是字符串，B是表达式，表示能否用B去完全匹配A的内容，换句话说能否用B这个表达式去表示A的全部内容，注意这个和rlike是有区别的。返回的结果是True/False.B只能使用简单匹配符号 _和%，”_”表示任意单个字符，字符”%”表示任意数量的字符like的匹配是按字符逐一匹配的，使用B从A的第一个字符开始匹配，所以即使有一个字符不同都不行。.

2021-07-02 18:06:42 3320

原创【DA】用户粘性指标：日活/月活

1 指标理解1.1 定义 & 适用场景定义：日活/月活是表示用户参与度的一个常用指标，它是每日活跃用户与每月活跃用户的比率，用百分比来表示。通常认为，日活/月活在 20％以上的 app 是不错的，超过 50％的被形容为世界级。适用场景：对消费类和底层的 SaaS 产品来说，这个指标非常有用，但是除了这种日常使用的消息/社交类产品外，其实对其他类别都不太有用。这些产品当然很有价值，但他们不是唯一有价值的产品。1.2 其他类别指什么？并非所有产品都必须要非常日常才显得有价值。还有一类

2021-06-29 23:34:14 8217

原创【Python笔记】pyspark dataframe の udf

详见: pyspark dataframe之udf应用from pyspark.sql import *from pyspark.sql.functions import *from pyspark.sql.types import *mission = "xxx"spark = SparkSession.builder.appName(mission).enableHiveSupport().getOrCreate()l =[("A", 16), ("B", 21), ("B".

2021-06-24 16:41:03 366

转载【Python笔记】pyspark.sql库

文章目录1 pyspark.sql.SQLContext1.1 applySchema(rdd, schema)、inferSchema(rdd, samplingRatio=None)1.2 cacheTable(tableName)1.3 clearCache()1.4 createDataFrame(data, schema=None, samplingRatio=None)1.5 createExternalTable(tableName, path=None, source=None, sche.

2021-06-20 23:16:47 4910

转载【Python笔记】pyspark.sql.functions

文章目录1 pyspark.sql.functions.abs(col)2 pyspark.sql.functions.acos(col)3 pyspark.sql.functions.add_months(start, months)4 pyspark.sql.functions.approxCountDistinct(col, rsd=None)5 pyspark.sql.functions.array(*cols)6 pyspark.sql.functions.array_contains(col,.

2021-06-20 23:14:23 6983

转载【Python笔记】pyspark.sql.types

文章目录1 pyspark.sql.types.DataType1.1 fromInternal(obj)1.2 json()1.3 jsonValue()1.4 needConversion()1.5 simpleString()1.6 toInternal(obj)2 pyspark.sql.types.NullType3 pyspark.sql.types.StringType4 pyspark.sql.types.BinaryType5 pyspark.sql.types.BooleanType6.

2021-06-20 22:14:12 1838

转载【Python笔记】spark.read.csv

1 问题发现from pyspark.sql.types import StructField, StructType, StringType# 定义 spark df 的表结构schema = StructType( [ StructField('ip', StringType(), True), StructField('city', StringType(), True) ])ip_city_path = job+'/abcdefg'ip_

2021-06-16 15:22:16 6966

转载【数据库笔记】Spark 小点汇总

大数据基本架构了解架构能更清晰地认识每个组件，数据处理流程，用作流程设计和技术选型数据传输层Flume 专业的日志收集工具，对象一般是文件类型；Sqoop 是专门采集结构化数据的，对象一般是数据库；Kafka 实际上是一个 MQ，当做缓存，常用于高并发；它既能传输，也能存储，只是存储空间有限，默认 1 G（可配置），且有存储期限，默认 7 天（可配置）；其实还有一些不太常用的工具，如 Logstash、DataX数据存储层MySQL 关系型数据库，存储结构化数据，还有很多其他关系型数

2021-06-14 00:40:52 465

原创【Python笔记】Spark Sql max+structの作用

疑问：max+struct的作用？test.map(x => tester(x._1, x._2, x._3, x._4, x._5)) .toDS .select($"ac", $"sk", struct($"num1", struct($"time", $"num1")).as("grp")) .groupBy($"ac", $"sk") .agg(max($"grp")).show(false)解答：Struct结构用于按字典顺序排序，从左往右地按字段比较

2021-05-31 17:07:08 801

转载【Python笔记】pyspark中的行列互转

1 基础数据from pyspark.sql import SparkSessionspark = SparkSession.builder.appName('JupyterPySpark').enableHiveSupport().getOrCreate()import pyspark.sql.functions as F# 原始数据 test = spark.createDataFrame([('2018-01','项目1',100), ('2018-01','项目2',200), ('201

2021-05-30 20:46:15 600

空空如也

CSDN已经发布过的文章，再修改-保存就会直接发布

vscode 上传代码到git报错