![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析/挖掘
sd116460
这个作者很懒,什么都没留下…
展开
-
A/B测试
A/B测试 A/B测试是促进业务持续增长的最实用,最有效的方式 产生迭代想法->论证迭代想法(A/B测试)->实施迭代想法 A/B测试可以解决那些常见的业务问题:产品迭代:改变用户的交互界面来提升用户体验,优化新用户的注册流程来提高转化率,确定产品优惠券的最有价值,增加产品功能来提升用户留存 算法优化:通过提高推荐系统算法的准确度来提高用户粘性,通过提高搜索排名算法的准确度来提升结果的点击率,通过提高广告显示算法的精确度来提升广告的点击率 市场营销:确定最优的营销内容,确定最优的营销时原创 2021-02-19 15:31:21 · 584 阅读 · 0 评论 -
python链接kafka
python链接kafka,向本地写入数据 这是一个简单的demo,学习kafka的一小步,同理可用到向数据库的数据读写,还有数据分析伪流式数据读取,用生产者来读取指定位置的数据,消费者进行数据的处理 from kafka import KafkaProducer,KafkaConsumer import json import datetime import time # 生产者 存储json数据 producer = KafkaProducer( value_seria原创 2021-01-25 18:05:36 · 312 阅读 · 0 评论 -
数据分析:数据量级不平衡的数据进行处理
对于不平衡数据(事件)的balance处理 对小概率事件进行预测(判断)的时候,一定要对数据做balance处理,不然会使得模型天然的倾向于大概率的结果。 处理方式: 1.上采样少数类别:上采样是从少数类别中随机扶着观测样本以增强其信号的过程,最常见的集中试探法是使用简单的放回抽样的方式重采样,从sklearn中导入重采样模块 这种处理方式会导致准确率急转而下,但是性能指标更有意义 2.下采样多数类别:下采样包括从多数类别中随机的一处观测样本,防止他的信息主导学习算法,其中最常见...原创 2020-12-17 15:42:03 · 1357 阅读 · 0 评论 -
多项式贝叶斯分类算法
# 中文文本分类 import os import jieba import warnings from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.naive_bayes import MultinomialNB from sklearn import metrics warnings.filterwarnings('ignore') def cut_words(file_path): """ .原创 2020-09-02 18:09:21 · 641 阅读 · 0 评论