- 博客(8)
- 资源 (5)
- 收藏
- 关注
原创 sklearn 细节总结
sklearn 细节总结1、数据集划分随机划分分层划分1、数据集划分随机划分from sklearn.model_selection import train_test_split#data:需要进行分割的数据集#random_state:设置随机种子,保证每次运行生成相同的随机数#test_size:将数据分割成训练集的比例train_set, test_set = train_test_split(data, test_size=0.2, random_state=42)分层划分常用于
2020-06-23 20:08:23 239
原创 字节跳动 数据分析 一轮技术面
第一写面经,记录一下这次难得的面试,感谢字节跳动的面试官。除了有一丝遗憾,自己在很多知识点的表达方面有所欠缺,没有用结构化思维去清晰的表达,也希望不要打乱自己学习的节奏,在数据分析方面不断提升自己的能力。总体情况时间:2020.06.08面试时间:1小时10分钟面试感受:技术面的面试官很有字节跳动的特点,不断引导你,帮你总结。反思自己的面试过程,发现数据分析的逻辑思维还需要进一步总结,形成分析的框架。同时,在表达能力上还需要多一些锻炼。再夸一夸字节的面试官:1、全程引导你回答问题,就算你没有回
2020-06-08 17:26:57 4082
原创 SQL 窗口函数
SQL 窗口函数引入概念基本语法窗口函数注意事项理解窗口函数特点使用场景开窗函数和聚合函数的区别窗口函数和group by子句的区别排序窗口函数partition by vs order by专用窗口函数区别聚合窗口函数窗口函数计算移动平均框架:移动平均使用场景面试经典题1、面试经典排名问题2、面试经典topN问题每组最大的N条记录3.如何在组里比较引入概念窗口函数:窗口函数也称为OLAP函数(Online Anallytical Processing,联机分析处理),意思是对数据库数据进行实时分析处
2020-06-05 23:39:46 665
原创 机器学习问题解决架构模板(通用)
出处:http://blog.csdn.net/han_xiaoyang/article/details/52910022通用机器学习流程与问题解决架构模板前言数据标签的种类评估指标库机器学习总体框架前言本文由Searchmetrics公司高级数据科学家Abhishek Thakur提供。链接:https://www.linkedin.com/pulse/approaching-almost-any-machine-learning-problem-abhishek-thakur/一个中等水平
2020-06-04 22:51:57 517
原创 特征选择:贪心算法和其评价矩阵的AUC
"""Greedy Feature Selection using Logistic Regression as base modelto optimize Area Under the ROC Curve"""import numpy as npimport sklearn.linear_model as lmfrom sklearn import metrics, preprocessingclass greedyFeatureSelection(object): d
2020-06-04 22:46:28 1185
原创 k-折划分训练集和测试集
将数据分成训练集和验证集“必须”根据标签进行。遇到分类问题,使用分层分割就对了。在Python中,用scikit-learn很容易就做到了。(CV)遇到回归问题,一个简单的K-Fold分割就可以了。当然,也还有很多复杂的方法能够在维持训练集和验证集原有分布的同时将数据分割开来。这个就留给读者们自己去练习啦。k-折交叉验证 。 k-折交叉验证将训练集划分为 k 个较小的集合(其他方法会在下面描述,主要原则基本相同)。 每一个 k 折都会遵循下面的过程:将 k-1 份训练集子集作为 training
2020-06-04 22:20:29 3687
原创 用户增长理解
用户增长公司:专用名词:1、CAC 用户获取成本2、LTV 用户的终生价值3、PBP 回收期:4、PMF 市场匹配:5、增长黑客AARRR:6、MVP(最小可行性产品):思考:1、产品从用户身上获取价值2、获客渠道成本越低越好3、LTV和CAC 与公司发展的关系4、PBP:花出去的用户获取成本可以在多长时间内回本不同的公司什么样的方式方法做用户增长1、初创公司:一定要先找到PMF2、爆发期公司怎么做? 满足黑客增长模型AARRR模型,多融资,傍巨头3、成熟期公司应该怎么做?公司:初创公司爆发型公司成
2020-06-01 06:44:03 940
数据分析数据流.zip
2020-06-02
stopwords.txt
2020-02-04
MATLAB智能算法30个案例分析
2015-06-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人