铁甲大宝-CSDN博客

转载在线优化算法 FTRL 的原理与实现

转载自：在线优化算法 FTRL 的原理与实现如有侵权，请及时联系删除。

2020-11-05 11:18:40 581

原创 [python] leetcode-26 删除排序数组中的重复项

给定一个排序数组，你需要在原地删除重复出现的元素，使得每个元素只出现一次，返回移除后数组的新长度。不要使用额外的数组空间，你必须在原地修改输入数组并在使用 O(1) 额外空间的条件下完成。示例:给定 nums = [0,0,1,1,1,2,2,3,3,4],函数应该返回新的长度 5, 并且原数组 nums 的前五个元素被修改为 0, 1, 2, 3, 4。你不需要考虑数组中超出新长度后面的元素。思路：设置两个索引i,ji,ji,j, iii指向无重复数组的最后一个下标，通过jjj来遍历下一个

2020-10-16 15:44:20 285

原创 [python] leetcode第14题：最长公共前缀

题目：编写一个函数来查找字符串数组中的最长公共前缀。如果不存在公共前缀，返回空字符串 “”。示例 1:输入: [“flower”,“flow”,“flight”]输出: “fl”示例 2:输入: [“dog”,“racecar”,“car”]输出: “”解释: 输入不存在公共前缀。说明: 所有输入只包含小写字母 a-z 。1. 依次取第一个字符串的各个字符，与后面的各个字符串对应字符进行比较，时间复杂度: O(m*n)def longestCommonPrefix(strs):

2020-10-12 11:08:12 467

转载 Python多进程编程

转载自https://www.cnblogs.com/jiangfan95/p/11439207.html

2020-09-22 16:23:56 178

转载 Hadoop常用端口号汇总

很棒的资料，mark一下。转载自https://blog.csdn.net/zpf_940810653842/article/details/102551103，侵删。

2020-08-21 10:51:44 938

原创 centos7设置静态IP

1. 查看当前IP地址ifconfig如上图，配置前IP为192.168.304.1392. 编辑ens33网卡，设置静态IP网卡配置文件位与/etc/sysconfig/network-scripts/下，找到对一个的网卡配置文件，使用vim打开vim /etc/sysconfig/network-scripts/ifcfg-ens33显示如下：参数说明：BOOTPROTO=dhcp # 默认为dhcp，自动获取IP地址，如果需要指定静态IP，需要在这里指定NETMASK=25

2020-08-17 17:47:33 319

转载风控模型师面试准备--业务+模型篇

很棒的文章，mark一下，转载自 https://zhuanlan.zhihu.com/p/56474197 侵删。

2020-08-13 18:50:36 555

转载风控模型—WOE与IV指标的深入理解应用

转载自 https://zhuanlan.zhihu.com/p/80134853/

2020-08-13 15:39:29 721

原创 windows下编辑的shell脚本在linux下执行出错： /bin/bash^M: 坏的解释器: 没有那个文件或目录

问题在Windows系统下使用sublime编辑的shell脚本文件，然后copy到了远程的Linux服务器，当运行的时候报错了。如下所示：原因shell文件在Windows下编辑，每一行结尾是\n\r，而Linux下则是\n，所以才会有多出来的\r。解决办法简单粗暴的解决办法，把\r去掉。执行下面命令达到效果sed -i 's/\r$//' xxxxxxx.sh...

2020-08-12 17:19:26 462

原创 pyspark入门系列 - 09 pyspark.sql.DataFrameNaFunctions

pyspark.sql.DataFrameNaFunctions()DataFrame中处理缺失值的函数drop(how=‘any’, thresh=None, subset=None)返回删除含有空行的DataFrame，DataFrame.dropna()和DataFrameNaFunctions.drop()是彼此的别名。how：'any’or ‘all’. 'any’删除包含空值的行，'all’一行中全部为空则删除改行.thresh： int，默认值无如果指定，则删除小于thresh非空

2020-08-02 12:05:45 455

原创 pyspark入门系列 - 08 pyspark.sql.types数据类型汇总

本小节来学习pyspark.sql中的types中的数据类型，数据类型汇总如下1. DataType数据类型的基类fromInternal(obj)转换SQL对象为Python对象json()jsonValue()needConversion()此类型是否需要在Python对象和内部SQL对象之间进行转换。这用于避免对ArrayType / MapType / StructType进行不必要的转换。simpleString()toInternal()将Python对象转换成SQL

2020-08-01 12:29:22 13467 1

原创 pyspark入门系列 - 07 pyspark.sql.GroupedData函数汇总

本节来学习pyspark.sql中的Grouped_Data类型的函数。博客中代码基于spark 2.4.4版本。不同版本函数会有不同，详细请参考官方文档。博客案例中用到的数据可以点击此处下载（提取码：h6gg）GroupedData(jgd,df)是由DataFrame.groupBy()创建的一组在DataFrame上聚合的方法from pyspark.sql import SparkSessionimport pyspark.sql.types as typspark = SparkSe

2020-07-26 15:42:18 2363

原创 pyspark入门系列 - 06 pyspark.sql.functions.pandas_udf使用教程

本节来学习pyspark.sql.functions中的pandas_udf函数。博客案例中用到的数据可以点击此处下载（提取码：2bd5）pyspark.sql.functions.pandas_udf(f=None, returnType=None, functionType=None)pandas_udf是用户定义的函数，由Spark使用Arrow来传输数据，并使用Pandas来处理数据，从而实现矢量化操作。使用pandas_udf，可以方便的在PySpark和Pandas之间进行互操作，并且保证性

2020-07-07 18:49:11 3545 1

原创 pyspark入门系列 - 05 pyspark.sql.Row函数汇总

from pyspark.sql import SparkSessionspark = SparkSession.Builder().master('local').appName('pysparkSqlRow').getOrCreate()RowDataFrame中的一行，可以像属性和字典一样访问其中的字段# 1. 通过Row创建from pyspark.sql import Rowrow = Row(name='Tom', age=15)rowRow(age=15, name='

2020-06-28 20:39:18 3791

原创 pyspark入门系列 - 04 pyspark.sql.Column函数汇总与实战

from pyspark.sql import SparkSessionspark = SparkSession.Builder().master('local').appName('sparksqlColumn').getOrCreate()df = spark.read.csv('../data/data.csv', header='True')df.show(3)+---+----+----+------+----+------+----------+-----------------

2020-06-24 18:21:52 4151

原创 pyspark入门系列 - 03 pyspark.sql.DataFrame函数汇总与实践

先放上pyspark.sql.DataFrame的函数from pyspark.sql import SparkSessionspark = SparkSession.Builder().master('local').appName('learnDataFrame').getOrCreate()从文件中读取数据，创建DataFramedf = spark.read.csv('../data/data.csv', header='True')# 查看各个列的数据类型df.printSch

2020-06-19 16:13:36 2993

原创 pyspark入门系列 - 02 pyspark.sql入口 SparkSession简介与实践

SparkSesson为使用Dataset和DataFrame API编程Spark的入口点。SparkSesson对象可以创建DataFrame，将Dataframe注册为表，并在表上执行SQL、缓存表、读parquet文件等，通过下面的方式创建SparkSessonfrom pyspark.sql import SparkSessionspark = SparkSession.builder.master('local').appName('Word-Count').config('"spark

2020-06-19 16:12:41 5378

原创 pyspark入门系列 - 01 统计文档中单词个数

导入SparkConf和SparkContext模块，任何Spark程序都是SparkContext开始的，SparkContext的初始化需要一个SparkConf对象，SparkConf包含了Spark集群配置的各种参数。初始化后，就可以使用SparkContext对象所包含的各种方法来创建和操作RDD和共享变量。from pyspark import SparkConffrom pyspark import SparkContextconf = SparkConf().setMaster('l

2020-06-10 21:27:25 2188

原创基于物品的协同过滤算法（ItemCF）-- 原理与实战

1、 ItemCF算法原理：ItemCF算法并不利用物品的内容属性计算物品之间的相似度，它主要通过分析用户的行为记录计算物品之间的相似度。该算法认为一个人的兴趣都局限在几个方面，当很多人都对两个物品感兴趣时，就认为这两个物品具有较大的相似度，即物品A,B具有很大的相似度是因为喜欢物品A的用户大都也喜欢物品B。2、 ItemCF算法步骤：计算物品之间的相似度根据物品的相似度和用户的历史行为给用户生成推荐列表。2.1 物品相似度计算建立用户-物品的倒排表对于每个用户，将用户列表中的物品两两.

2020-05-16 23:01:05 14631 8

原创搜索排序算法之BM25

BM25属于bag-of-word（词袋）模型，通常用来计算query与文档间相关性。下面先给出计算公式：score(D,Q)=∑i=1nidf(qi)∗tf(qi,D)∗(k1+1)tf(qi,D)+k1∗(1−b+b∗∣D∣avgdl)score(D,Q)=\sum_{i=1}^nidf(q_i)*\frac{tf(q_i, D)*(k_1+1)}{tf(q_i, D)+k_1*(1-b+...

2020-05-02 15:41:54 1747

原创 K-means原理与Python实现

k-means算法K-均值聚类算法（k-means clustering algorithm)是一种无监督聚类算法。本文前部分介绍算法原理及优缺点，后面通过Python代码实现一个简版的k-means算法。优缺点优点：简洁快速，算法的关键在于初始中心的选择和距离度量。缺点：K值（聚类的数目）需要事先确定。聚类结果对初始类中心的选取较为敏感。容易陷入局部最优。只能发现球型簇...

2020-05-02 15:14:03 425 1

转载模型融合方法之Bagging与Boosting

Bagging从原始样本集中有放回抽样，获取训练子集。假设训练集有N个样本，每轮从训练集中有放回的抽取N个训练样本。共进行k轮抽取，得到k个训练子集。（k个训练集之间是相互独立的）每个训练子集训练一个模型，k个训练集共得到k个模型。对分类问题：投票；回归问题：取均值Boosting使用全部样本训练每个模型；每轮训练改变样本的权重，减小在上一轮训练正确的样本的权重，增大错误样本的权...

2020-04-25 17:28:34 821

原创文本特征提取之TF-IDF

TF-IDF（词频-逆文档频率）是一种统计方法，用以评估一个单词在一个文档集合或语料库中的重要程度。经常被用作信息检索、文本挖掘以及用户模型的权重因素。tf-idf的值会随着单词在文档中出现的次数的增加而增大，也会随着单词在语料库中出现的次数的增多而减小。tf-idf是如今最流行的词频加权方案之一。TF（Term Frequency，词频）：表示一个给定词语t在一篇给定文档d中出现的频率。公...

2020-04-25 11:09:30 1272

转载对逻辑斯蒂回归（Logistic Regression）的理解

本文转载自：https://www.jianshu.com/p/99eb7dcd0114，如有侵权，请及时联系删除logistic分布函数和密度函数，手绘大概的图像分布函数：- 密度函数:其中，μ表示位置参数，γ为形状参数。logistic分布比正太分布有更长的尾部且波峰更尖锐LR推导，基础5连问基础公式f(x) = wx + by = sigmoid(f(x))可以看作...

2020-04-19 11:37:07 2456

原创一文搞懂基于用户的协同过滤推荐算法

本文针对无上下文信息的隐性反馈数据集（每一条行为记录仅仅包含用户ID和物品ID），介绍基于用户的协同过滤算法原理。基于用户的协同过滤推荐算法本质：找到和待推荐用户相似的用户群，推进该用户群感兴趣且待推荐用户没购买过的物品。例如下图中，用户a购买过物品A、C，用户c购买过物...

2020-04-12 17:55:32 3108 1

原创信用评分模型建模流程

信用评分模型是消费信贷管理中先进的技术手段，是现在金融行业常用的信用风险评估方法，本文从宏观上介绍评分模型的建模开发流程。1. 明确问题明确业务要解决的问题，确定标签的定义规则，以及模型的评价指标和数据来源。在定义标签的时候需要注意：要考虑到表现期的长短（有关表现期的定义可以参考观察期与表现期）要考虑到期终表现与期中表现要考虑到某些群体的不可确定性（假设3期以上为坏客户，如果有拖欠2...

2020-04-05 22:50:43 2952 3

原创观察期与表现期

对于开发信用评分模型来说，首先需要明确用哪些数据来建模，以及好坏客户的定义。因此需要明确观察期与表现期的概念。如下图所示：观察期：代表的是决策时已知的信息，位于时间轴左侧，主要是用来生成用户特征的时间区间，即用来确定X变量；观察期的长短因模型和管理需要而异，如申请评分模型一般在6个月以上，行为评分模型的观察期一般在12 ~ 24个月。观察点：不是一个具体的时间点，而是一个时间段，表示...

2020-04-05 12:06:14 6776 2

原创 sklearn数据预处理 - 归一化

MinMaxScalar将数据归一化到[0,1]，计算公式如下：Xscaled=X−X.min(axis=0))X.max(axis=0)−X.min(axis=0)∗(max−min)+minX_{scaled} = \frac{X - X.min(axis=0))}{X.max(axis=0) - X.min(axis=0)}*(max - min)+minXscaled=X.max...

2020-04-02 17:47:04 1067

原创银行风险管理

银行风险主要包括信用风险、市场风险、操作风险、流动性风险、国家风险、声誉风险、法律风险、战略风险八大风险。信用风险产生的原因及特点：银行获取客户信息的不完整性信用风险具有非系统特性。贷企业或个人的还款能力大多取决于自身的财务状况、经营好坏以及还款意愿等个体因素。信用风险收益率呈非正态分布。大多数情况下贷款能正常收回，银行可得到利息收入，但是当坏账发生时，银行将损失整个本息。信用评级主...

2020-03-15 11:22:42 392

原创 01 推荐系统简介

推荐系统的基本思想懂你，精准推送：利用用户和物品的特征信息，给用户推荐具有用户喜欢的特征的物品。物以类聚：利用用户喜欢过的物品，给用户推荐与他喜欢过的物品相似的物品。人以群分：利用和用户相似的其他用户，推荐那些和他们兴趣爱好相似的其他用户喜欢的物品。推荐系统的分类在个性化推荐系统中，根据数据来源的不同，可以分为基于人口统计学的推荐（用户本身的数据），基于内容的推荐（商品的数...

2020-02-25 16:50:03 500

原创 mysql运维

查看mysql服务是否启动service mysql status # linux下查看服务运行的命令相同，如果是mysqld is stopped，那就说明mysql服务是停止状态如果是 mysqld is running，那就说明mysql服务是启动状态root用户登录mysql# 进入到mysql的安装目录，本教程MySQL安装在了/usr/local/mysql中，cd /...

2020-02-18 16:51:26 176

原创在centos上安装mysql数据库

mysql数据库共有3中安装方式，分别是yum安装，源码安装和glibc安装，本教程详细介绍glibc的安装方式。1 下载mysql glibc安装包在官网：http://dev.mysql.com/downloads/mysql/ 中，选择以下版本的mysql下载：选择相应的操作系统和版本进行下载，本教程选择mysql 5.6.47，linux-Generic 64bit进行下载安装。...

2020-02-12 11:35:11 196

原创 linux常用快捷键汇总

命令解释tab命令或是路径补全ctrl+c中断命令或进程ctrl+d终止运行的程序ctrl+z将正在运行的程序送到后台ctrl+l清屏，效果等价于clearctral+a将光标定位到行首ctrl+e将光标定位到行尾ctrl+f光标向右移动一个字符ctrl+b光标向做移动一个字符ctrl+insert复制命...

2020-02-10 21:26:03 291

原创本地访问启动在远程服务器上的jupyter notebook

本文档介绍了如何通过本地的浏览器访问启动在远程服务器上的jupyter notebook。首先，确定服务器上安装了jupyter notebook，没有安装可以通过pip安装，命令如下：pip install jupyter notebook然后，检查是否已经产经notebook配置文件：jupyter_notebook_config.py,该配置文件默认的路径如下： &nb...

2020-02-10 17:32:38 1229

原创 python开发工程师常见面试题

python必看面试题（一）python中 == 和 is 的区别是什么？深拷贝和浅拷贝私有化和Propretypython的生成器python迭代器python的for循环闭包python装饰器pyhton实例方法，类方法，静态方法python中 == 和 is 的区别是什么？python对象包含三个基本要素：id（身份标识）、type（数据类型）和 value（值）。== 比较操作符，...

2020-01-03 00:00:14 783

qq_34615112的博客