Soybean11-CSDN博客

原创用于SAAS公司的MRR模型--对一个公司LTV的预测

一、客户分类1、分类表所有注册客户新客户（本月新注册客户）新增 1、本月开通会员无变化 2、本月未开通会员老客户（本月之前注册的客户）流失 1、本月会员到期未继续购买。新增 2、本月不是会员，新开会员扩展 3、会员升级，例：从高级会员到超级会员缩减 4、会员降级，例：从超级会员到高级会员无变化 5、会员到期，继续购买相同会员；会员..

2020-08-31 10:31:48 2581 2

原创贝叶斯详细分析，详细例子解释

写在前面：贝叶斯定理算是统计学中特别重要的了，像极大似然估计等一些重要的方法都是基于贝叶斯发展出来的，所以学好贝叶斯基本上可以认识到大半部分的统计知识，而且对数据分析的小伙伴面试有帮助额一、定义事件A、B 先验概率 P(A) 后验概率P(A|B) 条件似然概率P(B|A) B 的先验概率P(B)，一般称为标淮化常量贝叶斯公式 P(AB)=P(A|B)*P(B) =P(B|A)*P(A) ...

2020-08-25 18:27:31 4831

原创 u检验、t检验、F检验、卡方检验详细分析

要点：一、正态分布是统计学的基础，它对于各种假设检验极其的重要，t分布，F分布，卡方分布都是基于正态分布衍生出来的，而且中心极限定理也证明了，多数分布在样本量n足够大的情况下，其样本均值服从正态分布。二、假设检验的步骤 1 提出假设，包括无效假设H0和备择假设H1。 2 预设检验水准，一般设为0.05，概率小于0.05为小概率事件 3 选定检...

2019-09-11 14:28:52 58083 1

原创决策树之基尼系数

在决策树中，除了用似然估计推导出的信息熵损失函数之外，还有一个基尼系数怎么理解呢？针对一个贷款人员是否违约的二分类问题，我们来描述一下对于一个用户A，假如我们的模型预测出他违约的概率为p，则不违约的概率为1-p。这时我们就可以认为该用户的GINI系数为p(1-p)当p=0.5时，p(1-p)最大，此时用户有一半的概率违约，一半的概率不违约，这等于废话，说明模...

2020-07-30 18:54:10 13713 1

1、目的在逻辑回归算法中需要有一个正则项，防止过拟合。那么我们如何确定正则项的强度呢，如何调整这个参数呢？可以通过一个代码来实现，下面我们分析一下该参数对L1正则和L2正则的影响2、代码from sklearn import datasetsimport numpy as npfrom sklearn.linear_model import LogisticRegression as LGfrom sklearn.model_selection import train_test_spl

2020-07-23 16:51:36 3356

原创 np.argmin()---python

作用：返回向量中的最小值的索引，可以按行返回或者按列返回1、一维向量s1=np.array([1,2,3,4])np.argmin(s1)>> 0因为在一维向量s1中，最小值为1，所以返回的索引为02、二维向量s1=np.array([[1,4,3] ,[2,3,4] ,[3,2,1]])np.argmin(s1,axis=0)>> [0,2,2]axis=...

2020-07-21 16:17:55 2451 2

原创 k-means聚类

这里介绍一下简单的使用欧氏距离的kmeans思路： 1、确定n个中心点 2、计算每个点与中心点的距离 3、然后对每一个点的与n个中心点的距离进行比较，将点划分到距离最短的那个中心点簇中 4、此时以n个中心点形成n个簇 5、然后取这些簇中各个点的特征值的均值为新的中心点 6、重复2、3、4，迭代对应的次数，输出结果代码：#引入包，数据使用的是sklearn包中带的鸾尾花数据import numpy ...

2020-07-21 15:37:49 212

原创 python 实现飞机大战

在b站上看了制作飞机大战的视频，按照视频把代码整了一遍图片素材链接:https://pan.baidu.com/s/1lgdWmgt6Y2lNHvarhV1poQ 密码:dl6e目录形式代码import pygamefrom pygame.locals import *from sys import exitimport random# 设置游戏屏幕大小SCREEN_WIDTH = 480SCREEN_HEIGHT = 800import codecs# 子.

2020-07-15 19:06:18 733

原创如何管理埋点

一、从不同的角度对埋点进行把控从展示角度每一个APP或者网页都有许多的页面，每一个页面上又有许多的模块。因此从展示的角度，埋点应该遵循，先页面后模块的角度。从路径的角度每个公司的业务不同，但都有实现业务的核心路径，比如拼多多，应该有一个从访问到注册再到最后购买的核心路径。在这个路径上又会有其他的一些操作。但最终都应该结合核心路径来打点。因为埋点的目的是获取数据，获取数据的目的是为了驱动业务。因此从路径的角度上看，埋点应该是一个鱼骨状的图。从埋点...

2020-05-28 19:08:11 841

原创 python 栈的应用---接雨水

题目在力扣上有一道算法题叫做接雨水。如下图（图片来自于力扣），要计算出在柱子的缝隙中能存多少水。输入: [0,1,0,2,1,0,1,3,2,1,2,1]输出: 6栈：一种运算受限的线性表，遵循后进先出的规则。如下图（图片来自于百度百科）思路：计算列表list=[5,3,1,5]能接多少雨水。1.创建一个stack=[]2.从左向右遍历列表list，将list元素的index，0插入stack中，如果list[1]<=stack[-1]的元素，则继续将...

2020-05-28 16:45:26 455

原创 from scipy.misc import imread 出错

显示错误module 'scipy.misc' has no attribute 'imread'解决方法pip install scipy==1.1.0 -i http://pypi.douban.com/simple --trusted-host pypi.douban.compip install pillow==6.0.0 -i http://pypi.douban.com/simple --trusted-host pypi.douban.com完成上面两步即可..

2020-05-21 18:12:12 320

原创一个to B公司APP界面的发展过程

第一阶段只关注自身内容，不关注客户，界面对所有客户是统一的。一般界面包括一个搜索框和内容推荐。第二阶段开始关注客户行业，添加行业推荐内容，针对不同行业做不同的内容推荐。一般界面包括，搜索框，行业推荐，内容展示第三阶段开始关注客户搜索，对不同行业用户搜索的内容做推荐第四阶段千人千面...

2020-05-18 14:05:39 373

原创电商、流量平台分析指标

1、规模数据pv、uv、注册用户数，这些指标反映了一个电商或者流量平台的规模大小。2、用户参与度指标电商：访问人数、点击商品人数、放入购物车人数、提交订单人数、完成交易人数流量平台：访问人数、注册人数、用户点击平台内容、用户发布动态内容、用户转发动态内容这些指标反映了电商或者流量平台对用户的吸引程度3、转化、收益电商：用户购买商品流量平台：用户购买会员权益这些指标反映了电商或者流量平台最终的收益情况...

2020-05-12 11:36:49 1427

原创排序算法的时间空间复杂度详解加代码

一、选择排序原理：每次从列表中选择出最小的数，依次放在从左向右的位置，一个长度为n的列表，有n个位置。对于列表[2,3,1]，选择排序的步骤为（1）从索引为0的位置开始遍历列表，得到最小值1，与索引为0的数字2换位，得到[1,3,2]（2）再从索引为1的位置开始遍历列表（因为0的位置已经确定是最小了），得到最小值2，与索引为1的数字3换位，得到[1,2,3] 可以发...

2019-10-23 20:08:04 550

原创 tensorflow入门（二）--核心、接口

两种运行计算图的方式import tensorflow as tfa=tf.constant([1,2,3],name='a')c=a+1####1with tf.Session as sess: print(sess.run(c))####2sess=tf.Session()with sess.as_default(): print(c.eval())...

2019-10-14 16:51:31 190

原创 tensorflow入门（一）--计算图的生成

import tensorflow as tfg1=tf.Graph() #建立计算图，tensorflow里有默认的，也可以自己建一个with g1.as_default(): a=tf.constant([1,2,3],name='a') #常量 c=a+1 b=tf.get_variable('b',initializer=tf.constant_init...

2019-10-14 16:32:53 541

原创喂给Word2Vec数据长什么样子

学习算法，最重要的是对python中各种数据结构的了解。因为在学习各种模型的过程中，我们喂给模型的数据到底长什么样子，出来的又是什么样子，只有做到心中有数，才能更好的写出相应的代码，更好的了解模型的内涵。对于Word2Vec这种词嵌入（embding）模型，有两种喂数据的方式1、下面这是一个txt文件，注意，这个文件是以空格的方式分词的，其中的标点符号是中文的，因为没有去除停用词，所以不要...

2019-10-09 21:18:39 374

原创 sklearn----------------CountVectorizer

CountVectorizer是词频转换函数，其详细用法为from sklearn.feature_extraction.text import CountVectorizercv=CountVectorizer()texts=['yellow blue red break','yellow blue red','blue blue break','blue red','break...

2019-09-18 11:12:20 244

原创 pandas中drop_duplicates 用法

drop_duplicates（subset=' 列名',keep='firsrt',inplace='True'）函数是删除DataFrame的某列中重复项的函数。subset，输入列名，形式为subset='列名1'，可输入多列，形式为subset=['列名1','列名2']keep包括'first'，'last'，False，三个参数，注意first和last带引号，而False没有...

2019-09-12 15:06:34 14877 1

原创 python实现决策树与随机森林

数据来自于sklearn.datasets中的load_iris模型为决策树import pandas as pdimport numpy as npfrom sklearn.datasets import load_irisfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.tree import Dec...

2019-09-01 21:34:17 654

原创 tensorflow线性回归应用实例——预测加利福尼亚房价

使用了python中sklearn.datasets包中fetch_california_housing中的数据，基于tensorflow框架做了一个简单的模型。下面做了几个tensorflow的简单应用示例，第一个代码实例采用解析解的方式求解了线性回归模型的参数w0,w1...，wn。第二个代码实例采用了梯度下降法求解了线性回归模型的参数w0,w1...，wn。tensorflow是先建...

2019-09-01 11:21:33 1049

原创 python一维数组（array）变成多维的数组（array）

python对数组进行形状变化的代码为原数组.reshape(新行数，新列数）首先生成一个一维的数组import numpy as nplist1=[1,2,3,4,5,6]array1=np.array(list1)print(array1)运行上面的代码得到下面这样的一维数组然后对数组进行转化，转换成一列的代码如下array2=array1.reshap...

2019-08-31 21:19:30 17070 1

原创最详细的SVM数学模型讲解

背景：支持向量机SVM常用于二分类问题，其输入的数据形式如[x1,x2,x3...,xn,y]，其中x1,x2,...,xn为特征值，y为结果值，为1和-1。点到直线的距离：点到超平面的距离： ...

2019-08-14 18:18:35 4552

原创 RFM模型

R:最近一次消费时间F：消费频次M：消费金额分别计算出RFM之后，算出RFM的平均值R',F',M';如果R>=R' and F>=F' and M>=M' 则‘重要价值’如果R<R' and F>=F' and M>=M' 则‘重要唤回’如果R>=R' and F<F' and M>=M' 则‘重要深耕’如果R&l...

2019-08-12 11:11:08 332

原创 hive 增加新字段，修改字段类型

增加新字段alter table es_test.dm_emc_shuangyuelv add columns (kefudaijiao_order_num string comment '客服代叫成功数');修改字段类型ALTER TABLE es_test.dm_emc_shuangyuelv CHANGE COLUMN kefudaijiao_order_num kefudai...

2019-08-07 14:58:00 1983

原创解析json，判断json串中各种元素的数量，并生成csv文件

原来的csv文件，里面的数据类型简单展示，（由于csv文件会按逗号分列，所以在原数据上做处理，把","变成了"/"，但是在python处理时要重新转换回来）。代码如下import jsonimport csvimport pandas as pdfrom collections import Counterdic={}a=[]def flatten(jsonObj...

2019-08-06 14:28:43 1116

原创 python列表中各种元素的数量

如果python列表里有许多元素，并且这些元素有重复的，那么如何判断一个列表中各个元素的数量~~~~my_list=['a:1','a:1','b:3']from collections import Counterdef counter(my_list): return Counter(my_list)counter(my_list)结果：Counter({'a:1':...

2019-08-06 13:32:05 4400

原创使用python对json串解析

最近在工作中遇到了嵌套多层的json串，不仅包括类似于python字典的嵌套，里面还有数组的嵌套。具体的例子如下，在这里列举了三个例子，其实处理了大约500万条，虽然嵌套也挺多，但相对于专业的爬虫工程师来说，这肯定是小意思而已。这个json串的意思是一个企业所对应的规则，前面是企业的id（因为保密，所以企业id肯定更改了），因为本人是在滴滴，所以对应的规则当然是用车...

2019-08-02 00:39:31 359

原创逻辑斯蒂回归与梯度下降法

看了几位大神写的博客，对逻辑回归有了更深刻的理解，因此在这里简单记录一下自己的一些看法，当作笔记1、逻辑回归逻辑回归一般用于分类问题，而且多用于二分类问题，为什么逻辑回归要是分类方法却叫回归呢？我认为主要原因是因为逻辑回归首先建立了一个线性回归模型，然后又用的sigmoid函数将其转化成了二分类问题。对于分类问题，我的理解是损失函数一般为交叉熵，交叉熵的形式是 ...

2019-05-05 23:54:00 3338 1

csefrfvdv的博客