数据采集与处理

市场研究中的数据

根据采用的测量尺度不同,可以将数据分为名义、等级和连续。

根据数据的收集方式,可以分为实验数据(可以控制客观原因)和观测数据。

根据对象与时间的关系,可以将数据分为时间序列数据、截面数据和面板数据。

原始数据收集方法:观察法(根据时间来看),实验法,调查法(主动的去获取数据)

二手数据:公开二手资料、爬虫,特点,收集时间短、快。

概率抽样方法

抽样调查

从整体随机抽一部分样本进行调查,通过部分推断整体。

抽样分类:简单随机抽样(样本少可以用)、分层抽样(一般常用,按照重要程度,等数分配法或者等比分配法)、系统抽样(基本不用)、多段抽样(按照不同层级)。

放回抽样:重复抽样,抽出一个单位登记后重新放回样本。满足古典概型。

不放回抽样:不重复抽样,抽出一个单位后不放回样本。

抽样调查的误差来源:抽样误差(代表性误差,个别特殊的样本抽到),非抽样误差(不是由样本抽样造成的)。

非概率抽样

偶遇抽样

选择对象一般为人。特点任意、方便、随意,但是偶遇抽样不等于随机抽样。

判断抽样

觉得什么重要主要抽什么。特点:典型、主观,受主观影响大。

定额抽样

总体通过某一个标准进行分层抽样,一般与其他抽样方法配合。

滚雪球抽样

先找少量、个别调查对象进行访问,再根据这个寻找新的调查对象,最终达到调查目的。

空间抽样

对非静止的、暂时性的空间相邻的群体的抽样方法。例如,游行与集会没有确定的总体,参加者从一地到另一地,一些人离去又有一些人进来,但这些事件是在一定范围内进行的。对这样的总体在同一时间内抽样十分重要,以便样本组成不会经历时间上的太大变化。

总的来说:非概率抽样最主要的优点是成本低、速度快,但是缺点也很明显。一不能估计抽样误差;二不能代表总体;三不能给出总体结论。

 总结

市场调研和市场录入

市场调研流程

完整流程:

 市场调研目标设定

市场调研前准备

 

 

 

 调研实施

 

 

总结 

数据探查与可视化

 单变量描述统计

分类变量

  • 名义变量:比如饮料类型。
  • 等级变量:比如饮料包装大小。

连续变量:一般可以进行数据之间的计算,其计算结果有一定价值。

两者区别可以利用描述来区分,等级变量一般说是累计,而变量一般说数据,如中位数、平均数等。

常用连续变量图形

 

 

两变量描述统计

简单来说就是寻找两个变量之间的关系。

总结

 制图原理

 第一步

第二步

第三步

 第四步

错误数据识别与处理 

可以解决离群值问题,在两端的分位点,确定数据,小于多少就确定值为多少,大于一定值为多少。

数据预处理基础

 

 

 确实值处理

 多重插补法:利用原数据进行建模,对总体样本确实的部分进行模型预测。

 

 噪声平滑

 连续变量分布形态转换

(尝试百分位秩)

 

 

 变量降维

 Woe转换

 总结

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Single_minde

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值