机器学习
文章平均质量分 77
learning more
这个作者很懒,什么都没留下…
展开
-
机器学习小知识二
机器学习相关小知识原创 2023-11-18 14:40:03 · 225 阅读 · 0 评论 -
机器学习小知识一
机器学习问题的相关小知识原创 2023-11-18 13:31:46 · 140 阅读 · 0 评论 -
机器学习算法竞赛系列二 之数据探索+特征工程
数据探索可以分为三个部分:首先是赛前数据探索(即数据初探),帮助我们对数据有个整体性的认识,并发现数据中存在的问题,比如缺失值、异常值和数据冗余等;其次是竞赛中的数据探索,通过分析数据发现变量的特点,帮助提取有价值的特征,这里可以从单变量、多变量和变量分布进行分析;最后是模型的分析,可以分为特征重要性分析和结果误差分析,帮助我们从结果发现问题,并进一步优化。原创 2023-11-16 22:53:13 · 172 阅读 · 0 评论 -
机器学习算法竞赛系列一
机器学习竞赛网站,常用的评价指标等原创 2023-11-16 16:45:57 · 186 阅读 · 0 评论 -
PCA与SVD
【代码】PCA与SVD。原创 2023-07-23 13:00:50 · 102 阅读 · 1 评论 -
聚类算法用于降维,KMeans的矢量量化应用
【代码】聚类算法用于降维,KMeans的矢量量化应用。原创 2023-05-22 21:24:12 · 387 阅读 · 0 评论 -
聚类分析基础
n_clusters是KMeans中的k,表示着要分几类。这是KMeans当中唯一一个必填的参数,默认为8类,但通常聚类结果会是一个小于8的结果。原创 2023-05-22 17:06:26 · 1008 阅读 · 1 评论 -
特征工程-特征选择
降维之外的所有特征选择的方法。过滤法更快速,但更粗糙。包装法和嵌入法更精确,比较适合具体到算法去调整,但计算量比较大,运行时间长。当数据量很大的时候,优先使用方差过滤和互信息法调整,再上其他特征选择方法。使用逻辑回归时,优先使用嵌入法。使用支持向量机时,优先使用包装法。迷茫的时候,从过滤法走起,看具体数据具体分析。原创 2023-05-21 15:56:06 · 802 阅读 · 1 评论 -
数据预处理
【代码】数据预处理。原创 2023-05-19 18:19:26 · 256 阅读 · 1 评论 -
随机森林在乳腺癌数据集上的调参案例
适合用网格搜索的参数:知道范围,或者说知道随着取值的变化模型怎么变化。适合先用学习曲线得到一个小区间的参数。原创 2023-05-15 15:42:21 · 81 阅读 · 0 评论 -
使用随机森林填补缺失值
【代码】使用随机森林填补缺失值。原创 2023-05-15 13:22:06 · 760 阅读 · 1 评论 -
随机森林学习
【代码】随机森林学习。原创 2023-05-14 20:01:51 · 74 阅读 · 0 评论 -
基于决策树的泰坦尼克号幸存者预测
np.linspace(0,0.5,20) 生成有顺序排列的随机的0-0.5的20个数。网格搜索只能对所有的参数都做选择 就算不带一部分会更正确,网格搜索也不会放弃这个参数。parameters 一串参数和这些参数对应的希望网格搜索的参数的取值范围为。Gini系数取值为0-0.5 entropy 信息熵的取值为0-1。一般做两个参数、两个参数做网格搜索 减少计算量。能够帮助我们同时调整多个参数的技术,枚举技术。计算量大 尽量确定范围后搜索。原创 2023-05-14 16:42:15 · 247 阅读 · 0 评论