从数据中推断用户的行为--建模篇-CSDN博客

1.数据

我们获得了用户2个多月每天接收到的短信数量，并用代码展示如下：

from IPython.core.pylabtools import figsize
import numpy as np
from matplotlib import pyplot as plt
count_data = np.loadtxt("data.cvs")
count_data_len = len(count_data)
print(count_data)
"""
out: [12. 22. 22. 34. 12. 11. 12. 11. 21. 21. 11. 56. 19. 29.  6. 19. 11. 21.
 11. 18. 72. 32.  9.  7. 12. 19. 23. 27. 20.  6. 13. 10. 13.  5. 16. 15.
  5.  2. 15. 15. 19. 70. 49.  6. 53. 22. 21. 32. 19. 11. 18. 20. 12. 35.
 16. 23. 15.  3.  2. 31. 30. 13. 27.  0. 39. 37.  5. 13. 12. 22.]
"""
figsize(12.5, 3.5)
colors = ['#348ABD','#A60628']
plt.bar(np.arange(count_data_len), count_data,color = colors[0])
plt.xlabel('time(day)')
plt.ylabel('sms(piece)')
plt.xlim(0, count_data_len)
plt.show()

6e3332924a0574530662b6afb60d3324aa94c8ca

问题：用户的行为是否发生过变化？显然光从图片中我们可以略微的看出，后面一段的数量总体是比前面多的。

2.两个分布模型

b5b5da6902b8916c688ea1b1df007999826ff3a4

上面就是泊松分布的公式，P表示概率，N表示某种函数关系，t表示时间，n表示数量，lambda表示事件的频率（数学期望）。

bc8011cbf1ec732194a4eb65bc15017c9b416c4c

上面是指数分布的概率密度函数，指数分布是事件时间间隔的概率，x是给定时间间隔，lambda是单位时间发生的次数。

3.分析建模

3.1 用户每天天收到的短信数是多少？

显然使用具体的函数来确定用户每天收到的短信数是不可取的，用户每天收到的短信数是一个随机的过程，而具体函数给定参数后只有唯一的结果输出。

在随机过程中，泊松分布描述的是某段事件内，事件具体发生的概率，并且在泊松分布中仅有一个参数lambda，而lambda则是整个事件的数学期望。于是我们想到，既然无法得到用户每天收到短信的具体值，为何可以借助Poisson分布来模拟用户每天收到短信数量的概率分布呢。

得到公式： P(C) = P(N(1)=C) ，那么C ~ Poisson（lambda） , C为一天收到的短信数量， lambda为短信的平均数。

avg = sum(count_data) / count_data_len  # 收到短信的平均数
print(count_data)
lambda_ = avg
"""
out: 19.4
"""
print(lambda_)
x = np.arange(100)
pmf =st.poisson.pmf(x, lambda_)   # poisson分布函数
plt.plot(x, pmf, '-o', label='$\lambda$ ={}'.format(lambda_)) # x轴为收到短信的条数，y轴为概率
plt.xlabel('received(piece)', fontsize=12)
plt.ylabel('Density', fontsize=12)
plt.ylim(0)
plt.show()

533863cb503b4ce781bc88c52674280dcf0e856e

或许对于真实数据的短信数量频率分布应该用短信数量出现的天数 / 总天数来表示更为准确，但是我们知道真实数据中并不能代表所有数据，1天收到1000条的概率很小，但还是可能的。

3.2 对两个lambda的假设

在3.1中我们得出公式 C ~ Poisson(lambda)只是说明每天收到的短信数量服从泊松分布，并不能让我们观察出用户行为是否发生变化。但是若存在两个lambda呢?

我们假定用户每天收到短信数量的频率分布在tau天前服从lambda_1, 在tau天后服从lambda_2的Poisson分布：

C(t) ~ Poisson(lambda_1) t < tau

~ Poisson(lambda_2) t >= tau

也就是说用户在以第tau天为分割线，前段时间与后段时间收到的短信数量在数学期望上有两个不同的值，即用户在第tau天后短信更多了或者更少了，那么我们就可以说在第tau天用户的短信行为发生了变化。

3.3怎么求这两个lambda

假如只有一个lambda，我们可以给定lambda为总体数据的平均值，但是对于两个lambda依旧采取这样的方法，把数据分成两份，再求其数学期望？显然这两个期望不会相等，或许我们再定义一个最小差值作为用户行为发生变化的准则结果也能，不多说，试一试，直接上代码：。

from IPython.core.pylabtools import figsize
import numpy as np
from matplotlib import pyplot as plt
figsize(13,5)
count_data = np.loadtxt("data.cvs")
count_data_len = len(count_data)
avg = sum(count_data) / count_data_len
i = 1
expectation = np.zeros_like(count_data)
for expe in expectation:
    other_len = count_data_len - i
    expe_1 = sum(count_data[:i]) / i
    expe_2 = sum(count_data[i:]) / other_len
    expe =  abs(expe_1 -expe_2) 
print(expectation)

plt.bar(np.arange(len(expectation)), expectation)
plt.ylabel('expectation difference between before and after', fontsize=12)
plt.xlabel('user change behavior time(day)', fontsize=12)
plt.ylim(0)
plt.xlim(1)
plt.show()

d6df44416b424c31dbd5223402fe10bbb948a0ed