自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小狐狸

EE转机器学习(深度学习)欢迎一起交流学习~~

  • 博客(8)
  • 资源 (5)
  • 收藏
  • 关注

原创 sklearn 细节总结

sklearn 细节总结1、数据集划分随机划分分层划分1、数据集划分随机划分from sklearn.model_selection import train_test_split#data:需要进行分割的数据集#random_state:设置随机种子,保证每次运行生成相同的随机数#test_size:将数据分割成训练集的比例train_set, test_set = train_test_split(data, test_size=0.2, random_state=42)分层划分常用于

2020-06-23 20:08:23 239

原创 训练集、验证集和测试集

训练集、验证集和测试集

2020-06-23 19:59:48 3201

原创 字节跳动 数据分析 一轮技术面

第一写面经,记录一下这次难得的面试,感谢字节跳动的面试官。除了有一丝遗憾,自己在很多知识点的表达方面有所欠缺,没有用结构化思维去清晰的表达,也希望不要打乱自己学习的节奏,在数据分析方面不断提升自己的能力。总体情况时间:2020.06.08面试时间:1小时10分钟面试感受:技术面的面试官很有字节跳动的特点,不断引导你,帮你总结。反思自己的面试过程,发现数据分析的逻辑思维还需要进一步总结,形成分析的框架。同时,在表达能力上还需要多一些锻炼。再夸一夸字节的面试官:1、全程引导你回答问题,就算你没有回

2020-06-08 17:26:57 4082

原创 SQL 窗口函数

SQL 窗口函数引入概念基本语法窗口函数注意事项理解窗口函数特点使用场景开窗函数和聚合函数的区别窗口函数和group by子句的区别排序窗口函数partition by vs order by专用窗口函数区别聚合窗口函数窗口函数计算移动平均框架:移动平均使用场景面试经典题1、面试经典排名问题2、面试经典topN问题每组最大的N条记录3.如何在组里比较引入概念窗口函数:窗口函数也称为OLAP函数(Online Anallytical Processing,联机分析处理),意思是对数据库数据进行实时分析处

2020-06-05 23:39:46 665

原创 机器学习问题解决架构模板(通用)

出处:http://blog.csdn.net/han_xiaoyang/article/details/52910022通用机器学习流程与问题解决架构模板前言数据标签的种类评估指标库机器学习总体框架前言本文由Searchmetrics公司高级数据科学家Abhishek Thakur提供。链接:https://www.linkedin.com/pulse/approaching-almost-any-machine-learning-problem-abhishek-thakur/一个中等水平

2020-06-04 22:51:57 517

原创 特征选择:贪心算法和其评价矩阵的AUC

"""Greedy Feature Selection using Logistic Regression as base modelto optimize Area Under the ROC Curve"""import numpy as npimport sklearn.linear_model as lmfrom sklearn import metrics, preprocessingclass greedyFeatureSelection(object): d

2020-06-04 22:46:28 1185

原创 k-折划分训练集和测试集

将数据分成训练集和验证集“必须”根据标签进行。遇到分类问题,使用分层分割就对了。在Python中,用scikit-learn很容易就做到了。(CV)遇到回归问题,一个简单的K-Fold分割就可以了。当然,也还有很多复杂的方法能够在维持训练集和验证集原有分布的同时将数据分割开来。这个就留给读者们自己去练习啦。k-折交叉验证 。 k-折交叉验证将训练集划分为 k 个较小的集合(其他方法会在下面描述,主要原则基本相同)。 每一个 k 折都会遵循下面的过程:将 k-1 份训练集子集作为 training

2020-06-04 22:20:29 3687

原创 用户增长理解

用户增长公司:专用名词:1、CAC 用户获取成本2、LTV 用户的终生价值3、PBP 回收期:4、PMF 市场匹配:5、增长黑客AARRR:6、MVP(最小可行性产品):思考:1、产品从用户身上获取价值2、获客渠道成本越低越好3、LTV和CAC 与公司发展的关系4、PBP:花出去的用户获取成本可以在多长时间内回本不同的公司什么样的方式方法做用户增长1、初创公司:一定要先找到PMF2、爆发期公司怎么做? 满足黑客增长模型AARRR模型,多融资,傍巨头3、成熟期公司应该怎么做?公司:初创公司爆发型公司成

2020-06-01 06:44:03 940

数据分析数据流.zip

数值数据分析流 框架 python code案例 数据分析流框架理解 1、需求 2、y量化 3、x选择 4、描述 4.1图形 4.2统计量 5、预分析(特征工程,流程化和模块化) 5.1、异常值 单变量异常值 多变量异常值 5.2、缺失值 单变量缺失值 多变量缺失值 5.3、特征筛选 单变量特征筛选 多变量特征筛选 5.4、共线性 scipy.optional 单变量 多变量 5.5、变换 单变量 多变量 5.6、编码 单变量编码 多变量编码 6、建模(大模型:机器学习) 小数据算法:8 statsmodel 小数据 大数据算法:20 sklearn 大数据 7、修正 7.1、残差 7.2、假设(清晰清楚) 8、模型评估 8.1、残差 8.2、业务 9、应用 9.1、主次归因 9.2、规则归因 9.3、内衍 9.4、外推 10、可视化 ——————————————— 原文链接:https://blog.csdn.net/u010591976/article/details/106367307

2020-06-02

stopwords.txt

为节省存储空间和提高搜索效率,搜索引擎在索引页面或处理搜索请求时会自动忽略某些字或词,这些字或词即被称为Stop Words(停用词)。通常意义上,Stop Words大致为如下两类: 这些词应用十分广泛,在Internet上随处可见,比如“Web”一词几乎在每个网站上均会出现,对这样的词搜索引擎无法保证能够给出真正相关的搜索结果,难以帮助缩小搜索范围,同时还会降低搜索的效率; 这类就更多了,包括了语气助词、副词、介词、连接词等,通常自身 并无明确的意义,只有将其放入一个完整的句子中才有一定作用,如常见的“的”、“在”之类。 举个例子来说,象“IT技术点评”,虽然其中的“IT”从我们的本意上是指“Information Technology”,事实上这种缩写也能够为大多数人接受,但对搜索引擎来说,此“IT”不过是“it”,即“它”的意思,这在英文中是一个极其常见 同时意思又相当含混的词,在大多数情况下将被忽略。我们在IT技术点评中保留“IT”更多地面向“人”而非搜索引擎,以求用户能明了IT技术点评网站涉及的内容限于信息技术,虽然从SEO的角度这未必是最佳的处理方式。 了解Stop Words,在网页内容中适当地减少Stop Words出现的频率,可以有效地帮助我们提高关键词密度,而在网页Title中避免出现Stop Words往往能够让我们优化的关键词更突出。

2020-02-04

Matlab从入门到精通

适合初学者使用,推荐

2016-12-10

ICEM CFD简明教程(流沙经典)

ICEM CFD简明教程,简单实用,流沙经典,适合入门,图文并茂

2015-10-09

MATLAB智能算法30个案例分析

《MATLAB智能算法30个案例分析》是作者多年从事算法研究的经验总结。书中所有案例均因国内各大MATLAB技术论坛网友的切身需求而精心设计,其中不少案例所涉及的内容和求解方法在国内现已出版的MATLAB书籍中鲜有介绍。《MATLAB智能算法30个案例分析》采用案例形式,以智能算法为主线,讲解了遗传算法、免疫算法、退火算法、粒子群算法、鱼群算法、蚁群算法和神经网络算法等最常用的智能算法的MATLAB实现。

2015-06-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除