自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 pandas task

1.5.2 2. 练习 1.5.2.1 【练习一】: 现有一份关于diamonds的数据集,列分别记录了克拉数、颜色、开采深度、价格,请解决下列问题: pd.read_csv(‘data/Diamonds.csv’).head() carat color depth price 0 0.23 E 61.5 326 1 0.21 E 59.8 326 2 0.23 E 56.9 327 3 0.29...

2020-04-27 10:36:50 226

原创 pandas

一、文件的读取与写入 文件读取:pandas.read_文件格式,eg:pandas.read_csv(’/data.csv’) 文件写入:pandas.to_文件格式,eg:pandas.to_csv(‘data/new_table.csv’) #读取 df = pd.read_csv('work/table.csv') df.head()#默认查看前五行,想看n行的话就在括号内加数字,如前20...

2020-04-20 22:15:13 315

原创 模型融合

模型融合 在机器学习训练完模型之后我们要考虑模型的效率问题,常用的模型效率分析手段有: 研究模型学习曲线,判断模型是否过拟合或者欠拟合,并做出相应的调整; 对于模型权重参数进行分析,对于权重绝对值高/低的特征,可以对特征进行更细化的工作,也可以进行特征组合; 进行bad-case分析,对错误的例子分析是否还有什么可以修改挖掘。 模型融合:模型融合就是训练多个模型,然后按照一定的方法集成过个模型,应...

2020-04-04 20:33:32 201

原创 建模调参

建模调参 五折交叉验证 在使用训练集对参数进行训练的时候,经常会发现人们通常会将一整个训练集分为三个部分(比如mnist手写训练集)。一般分为:训练集(train_set),评估集(valid_set),测试集(test_set)这三个部分。这其实是为了保证训练效果而特意设置的。其中测试集很好理解,其实就是完全不参与训练的数据,仅仅用来观测测试效果的数据。而训练集和评估集则牵涉到下面的知识了。 ...

2020-04-01 19:37:10 342

原创 数据的特征工程

StratifiedKfold和KFold的区别 StratidfiedKfold和KFold交叉验证,都是将训练集分成K份,其中K-1份的训练集,1份的验证集。 不过特别的是StratifiedKfold将验证集的正负样本比例,保持和原始数据的正负样本比例相同 特征归一化(标准化) 在数据挖掘数据处理过程中,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标...

2020-03-28 19:56:55 240

原创 数据挖掘-数据探索(EDA)

数据探索 EDA(Exploratory Data Analysis) 1.EDA的作用 EDA的作用主要在于熟悉并了解数据集,对数据集进行处理,以便接下来机器学习或者深度学习使用 了解数据集之后,接下来就是了解数据集中各变量间的相互关系,变量与预测值之间的关系 引导数据科学从业者进行数据处理以及后面特征工程的部分,使得数据集的结构和特征集让接下来的预测问题更加可靠 完成对于数据的探索性分析,...

2020-03-24 19:30:01 500

原创 【统计机器学习】支持向量机

支持向量机 支持向量机是一种二分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使他有别于感知机;支持向量机还包括核技巧,这使他成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数最小化问题。 当输入空间为欧式空间或离散集合、特征空间为希尔伯特空间时,核函数表示将输入从输入空间映射到特征空间得到特征向量...

2019-09-17 15:54:59 173

原创 【统计学习方法】最大熵模型学习笔记

最大熵模型 1.什么是熵最大原理 最大熵原理就是概率模型的一个准则。最大熵原理认为,学习概率模型时,在所有可能的概率模型分布中,熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合,所以,最大熵原理也可以表述在满足约束条件时中取熵最大的模型。 例子1:假设随机变量x有5个取值{A,B,C,D,E},要估计各个值的概率P(A),P(B)…P(E). 这些概率值满足条件P(A)+P(B)+P...

2019-09-12 11:37:20 492

原创 【论文】Emotion-Cause Pair Extraction: A New Task to Emotion Analysis in Texts 阅读笔记

Basic Information Title: Emotion-Cause Pair Extraction: A New Task to Emotion Analysis in Texts List item Authors: Rui Xia, Zixiang Ding Institution: Nanjing University of Science and Technology Conf...

2019-09-11 10:57:31 2859 1

转载 统计学习方法知识点

@[TOC]第一篇博客 转自https://www.cnblogs.com/limitlessun/p/8611103.html 阅读目录 知识点 感知机 k近邻法 朴素贝叶斯 决策树 logistic回归和最大熵模型 支持向量机 提升方法 EM算法 隐马尔可夫模型(HMM) 统计学习方法总结 神经网络 K-Means Bagging Apriori 降维方法 引用 ...

2019-09-03 10:15:10 133

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除