机器学习
HxShine
这个作者很懒,什么都没留下…
展开
-
拟合sin函数
拟合sinx原创 2022-09-04 01:12:54 · 616 阅读 · 0 评论 -
Learning to rank基本算法小结阅读笔记
一、总结原文:https://zhuanlan.zhihu.com/p/26539920二、后续其他比较好的资料Learning to Rank简介:https://www.cnblogs.com/bentuwuying/p/6681943.htmlLearning to Rank算法介绍:RankNet,LambdaRank,LambdaMart:https://www.cnblogs.com/bentuwuying/p/6690836.html...原创 2021-03-22 10:27:03 · 198 阅读 · 0 评论 -
bagging 随机森林 boost adboost gbdt xgboost lightgbm思想与不同,以及优缺点
1.bagging特点:数据有放回采样分类最终投票回归最终平均优点可并行,提升泛化能力缺点可能欠拟合https://www.cnblogs.com/hugechuanqi/p/10554156.html2.随机森林特点:数据有放回采样增加了随机选择特征分类最终投票回归最终平均优点可并行,提升泛化能力缺点可能欠拟合https://www.cnblogs....原创 2020-04-28 11:56:16 · 1090 阅读 · 0 评论 -
kaggle Predicting Molecular Properties 比赛 brute-force-feature-engineering 解读
1 链接https://www.kaggle.com/kernels/scriptcontent/16357888/downloadhttps://www.kaggle.com/c/champs-scalar-coupling/overview2 EDA解读与上一篇主要的区别是构造了更多的特征,总共大概有400多维,与我自己不同的是它利用xgboost做了特征选择,最后留下了比较重要的一些...翻译 2019-07-23 10:09:45 · 408 阅读 · 0 评论 -
Machine learning Tips阅读纪要
1 链接https://zhuanlan.zhihu.com/p/56534902?utm_source=ZHShareTargetIDMore&utm_medium=social&utm_oi=637963847940706304https://github.com/afshinea/stanford-cs-229-machine-learning/tree/master/z...转载 2019-07-23 12:50:25 · 116 阅读 · 0 评论 -
如何做特征选择?
1 参考链接Topic 6. Feature Engineering and Feature Selectionhttps://www.kaggle.com/kashnitsky/topic-6-feature-engineering-and-feature-selection结合Scikit-learn介绍几种常用的特征选择方法https://blog.csdn.net/LY_ysys6...原创 2019-08-05 13:22:58 · 628 阅读 · 0 评论 -
序列模式挖掘资料收集
一 4种序列模式比较序列模式挖掘比较二 PrefixSpan算法原理总结PrefixSpan算法介绍三 An Open-Source Data Mining Library开源java序列模式挖掘库四 code4.1 pythongsp:gspprefixspan:prefixspan4.2 javaMaxSP:MaxSP...原创 2019-08-19 15:30:46 · 168 阅读 · 0 评论 -
lda pca资料整理
一、LDA与PCA都是常用的降维方法,二者的区别LDA与PCA原理和区别都是为了降维:其目的,方式,和作用都不一样。二、LDA、PCA、NCA降维后利用knn分类example...原创 2019-08-19 20:59:44 · 165 阅读 · 0 评论 -
机器学习分类问题资料和代码整理
1. 评价函数机器学习分类器模型评价指标Imbalanced data & why you should NOT use ROC curve查看sklearn评价参数:sorted(sklearn.metrics.SCORERS.keys())2.模型Multiclass classification using scikit-learn2.1常见模型和库# Essentia...原创 2019-08-22 16:03:04 · 687 阅读 · 0 评论 -
kaggle Predicting Molecular Properties 比赛 molecular-properties-eda-and-modelsEDA解读
1 原文链接https://www.kaggle.com/artgor/molecular-properties-eda-and-modelshttps://www.kaggle.com/c/champs-scalar-coupling/overview2 解读2.1 基本分布特点index0和index1的分布很不一样type分布也很不均匀,3个很多,3个很少,2个中频不同t...翻译 2019-07-22 10:41:33 · 412 阅读 · 0 评论 -
概率图模型学习资料整理
1 博客汇总图:【机器学习】概率图模型总结https://blog.csdn.net/u014433413/article/details/78330746漫谈 Hidden Markov Modelhttp://freemind.pluskid.org/series/hmm-tutor/隐马尔可夫模型HMM(有代码分析)https://zhuanlan.zhihu.com/p/299...原创 2019-08-03 14:51:59 · 315 阅读 · 0 评论 -
lightgbm回归模型分类模型基本框架
#https://www.kaggle.com/kernels/scriptcontent/16357888/downloadimport numpy as npimport pandas as pdimport timeimport matplotlib.pyplot as pltimport seaborn as snsfrom tqdm import tqdm_notebook...翻译 2019-07-30 17:57:34 · 4329 阅读 · 0 评论 -
机器学习2——分类和逻辑回归Classification and logistic regression(牛顿法待研究)
不同于回归问题,分类问题是指预测值y只有几个离散的值,这里只讲binary classification 二分类问题,即y只取0,1。Logistic regression1 why logistic fuction?为什么选择sigmoid函数?(1) 如何将标签映射到0,1? sigmoid函数及图如下: 函数: 图: (2) 所以要将标签映射到0,1。我们的假设函数可以设为原创 2016-12-06 23:42:47 · 1429 阅读 · 0 评论 -
01利用sklean练习机器学习--sklean之感知机preceptron模型实践
1 介绍台湾大学林轩田教授机器学习基石 02 Learning to Answer Yes or No 学习利用感知机来处理二分类模型2 自己实现#-*- coding:utf-8 -*-from numpy import *import matplotlib.pyplot as pltimport operatorimport timedef createTrainDataSet()原创 2017-11-29 10:09:52 · 814 阅读 · 0 评论 -
天池比赛
1.xgboost安装http://blog.csdn.net/xizero00/article/details/730083302.在Anaconda中安装python包seabornhttp://blog.csdn.net/robertchenguangzhi/article/details/49103421原创 2018-01-17 09:10:38 · 1527 阅读 · 0 评论 -
kdd 2019题目解读
1 startkit工具包demo样例是一个二进制的时间序列问题1.1 baseline区别与主流AutoML的是 Auto-Table-Join这个步骤,就是除了最后训练模型,还要学习如果发觉表与表之间的关系。https://competitions.codalab.org/competitions/21948#learn_the_details-getstarted...原创 2019-05-21 23:21:52 · 1467 阅读 · 0 评论 -
机器学习回归比赛一些方法
1.步骤2.pandas使用2.1 Skew and kurt# Skew and kurtprint("Skewness: %f" % train['SalePrice'].skew())print("Kurtosis: %f" % train['SalePrice'].kurt())2.2 分组以每组中值补充缺失值 # Group the by neighborhoods...原创 2019-07-09 22:13:18 · 731 阅读 · 0 评论 -
xgboost算法推导
1.推导思路目标函数目标函数泰勒展开合并正则项(遍历样本到遍历页节点)目标函数最小值(求导为0)得到参数的解2.详细推导2.1 目标函数lt=∑i=1Nl(yt,y)+γT+λ∑j=1Twj=∑i=1N[l(yt−1,y)+f(x)]+γT+λ∑j=1Twjl^{t}=\sum_{i=1}^{N}l(y^{t},y)+\gamma T + \lambda \sum_{j=1}^...原创 2019-07-15 10:29:55 · 315 阅读 · 0 评论 -
paddlepaddle百度飞浆使用体验一
1 使用目的最近有在做一些中文nlp的东西,总感觉国外的东西资源不是特别好找,飞浆在这方面应该还是有优势的,所以决定体验一发。2 资源文档:https://www.paddlepaddle.org.cn/documentation/docs/zh/1.5/beginners_guide/quick_start_cn.html官网:https://www.paddlepaddle.org....原创 2019-07-16 22:55:21 · 3481 阅读 · 1 评论 -
nl2sql_baseline项目解读(待完成)
1.目的该项目是将自然语言处理转化为mysql语句。链接:https://github.com/ZhuiyiTechnology/nl2sql_baseline首届中文NL2SQL挑战赛:https://tianchi.aliyun.com/competition/entrance/231716/introduction?spm=5176.12281949.1003.8.6f802448KX...原创 2019-07-18 00:13:43 · 2671 阅读 · 8 评论 -
机器学习1——线性回归Linear Regression
1 线性回归的使用1 解决的问题: 依照一些房子的面积Living area和卧室的个数bedrooms,以及价格price的数据,构建模型来预测给定面积和卧室个数的房间的价格price。 2 构建线性模型 hθ(x) = θ0 + θ1x1 + θ2x2 也可以写作: 3 构建损失函数 即为预测值和真实值的差别,平方和1/2都是为了方便求导。 4 LMS算法 一 批量梯原创 2016-12-06 20:43:42 · 619 阅读 · 0 评论