自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 titanic 生还预测-接上文吃鸡预测

对于titanic 生还预测,样本特征更多,更繁杂,对于筛选的要求也就更高,要考虑的实际情况也就更多了。import pandas as pdimport yamlopts = yaml.safe_load(open('./options.yaml'))# 读取数据集train_data = pd.read_csv(opts['train_data_path'])test_data = pd.read_csv(opts['test_data_path'])# 将训练数据和测试数据合在一起

2020-08-25 23:59:14 473

原创 PUBG 吃鸡排名预测

对于一般机器学习来说,总体的流程其实分为三个大的步骤:1. 数据清洗2. 模型构建3. 模型评估其中,第二步和部分第三步都是靠套路进行解决的,所需要修改的部分只是一些调参,可以使用gridCV 的方法进行调参,很多情况下能得到不错的效果。所以其实最难的部分主要其实还是数据清洗,相对于调用库来说,怎样把数据清洗成有用的、自己想要的格式,是一个最大的问题。数据清洗难题的解决办法个人认为机器学习相对于深度学习简单的一个原因,就是因为机器学习的可解释性很强,每一步都可以根据实际情况进行解释,所以带入

2020-08-25 23:15:00 1612 1

原创 skip-gram 学习笔记

关于skip-gramskip-gram 是给定中心词预测周围词例如,给定一句话 I am working on NLP project, it is interesting.设定滑动窗口为5的话分别给定中心词 working, on, NLP, project, it, 来预测中心词前后的两个周围词。那么目标函数就是maxmum( P(i|working) * P(am|working) * P(on|working) * P(NLP|working))另其为A, 那最终的目标函数就是

2020-08-21 15:52:35 653

原创 fasttext的理解

fasttext的理解1. 简介fasttext 是一个快速的用于文本分类的库。其也可以用于生成词向量。在生成词向量时,是无监督的算法。在用于文本分类时,是有监督的算法。2. 特点fastText在保持高精度的情况下加快了训练速度和测试速度。fastText不需要预训练好的词向量,而是会自己训练词向量。fastText能够提高训练速度的原因是使用了Hierarchical Softmax。fastText能够保持效果的原因是使用了N-gram特征。3. fastText的架构、流程

2020-08-21 15:52:18 697

原创 集成学习

1.集成学习简介一个牛逼的算法和10个简单的算法比,后者更好一点。所以在解决过拟合和欠拟合问题的时候,使用boosting 和bagging 的方法。欠拟合问题解决:弱弱组合变强 boosting过拟合问题解决:相互牵制变壮 bagging2. Baggingbagging集成过程采样:从所有样本中又放回的采样一部分特征学习:训练弱n个学习器集成:平权投票n 个若学...

2020-02-20 20:42:43 88

原创 决策树

决策树的分类信息增益信息增益 = 分类前后的信息熵之差信息增益越高,就越应优先选择该属性进行分类通过信息增益来进行分类,会优先选择类别多的属性进行划分信息增益率为了解决信息增益会优先选择类别多的属性进行划分的问题,使用信息增益率。但是没啥用基尼系数基尼值从数据集D中随机抽取两个样本,其类别标记不一致的概率。故,Gini(D)值越小,数据集D的纯度越高。基尼系数选择使划分...

2020-02-19 19:01:53 225

原创 线性回归-梯度下降

线性回归1.简介利用回归方程对一个或多个自变量和因变量之间进行建模的分析方式2.损失和优化损失计算损失用最小二乘法。优化。优化有两种方式。一种是正规方程解法通常只适用于极少量数据,一般不会用二是梯度下降的方式通常使用梯度下降梯度下降的简介。梯度就是倒导数、切线。沿着切线的方向下降的最快。梯度下降有两个参数,起始点和学习率(步长)对优化的方法选择大规模数据:SGD小...

2020-02-18 18:01:01 104

原创 机器学习-KNN

KNN1. 定义及简介如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。2. api 的初步使用from sklearn.neighbors import KNeighborsClassifier步骤获取数据x 一般都是二维的列表,y 一般都是一维的列表实例化训练模型estimator = KNeighbors...

2020-02-14 17:24:34 117

原创 Pandas 进阶

Pandas 进阶1.基本数据操作1. 索引1. 直接 -- 先烈货航2. loc 先行后列,只能通过索引值3. iloc 先行后列,可以通过下标4. ix 县行后列,混合索引2. 赋值3. 排序1. 索引 data.sort_index() 默认升序排列3. 值的排序 df.sort_values(by=, ascending=) by:指定排序参考的键,b...

2020-02-13 20:33:31 126

原创 Pandas

PandasPandas介绍Dataframes创建属性设置索引功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入Pan...

2020-02-11 14:57:00 154

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除