林木木子-CSDN博客

原创 scala计算相关系数矩阵

复制到excel-数据-分列、开始-条件格式-色阶。

2024-01-11 10:37:27 404 1

原创 scala随机划分及随机采样

【代码】scala随机划分及随机采样。

2024-01-10 14:48:04 424

安装anaconda1.1.2 安装新包1.2 jupyter notebook和传统的IDEA区别2.1.2 字符型转化成整型2.1.3 整型转换成浮点型2.1.4 字符型转换成浮点型2.2 计算**表示幂输出结果append一个个添加元素，可以添加不同类型的值输出结果2.4 list索引2.4.1 [ ]输出结果2.4.2 len计算list长度输出结果2.4.3 切片输出结果2.5 循环2.5.1 for输出结果2.5.2 while输出

2023-12-22 21:21:22 902

原创 Python几款相关软件安装和使用

Python的交互式shell网页应用和文档两种文档可以保存为ipynb，HTML，latex，PDF等支持markdown语法支持latex高性能使用Python和r第三方通过pip或者easy_install来下载包管理用conda比pip好。

2023-12-19 22:55:44 826 1

原创 2022版吴恩达机器学习学习笔记(1)--基础介绍

supervised learning： input xxx,output label yyylearns from being given “right answers”application:回归：分类根据结果数目find something interesting in unlabeled data应用：无监督分类：

2022-06-24 18:50:45 658 1

原创特征选择和特征提取

特征选择(feature selection)和特征提取(Feature extraction)都属干降维(Dimension reduction)这两者达到的效果是一样的，就是试图去减少特征数据集中的属性(或者称为特征)的数目:但是两者所采用的方式方法却不同。特征提取的方法主要是通过属性间的关系，如组合不同的属性得到新的属性，这样就改变了原来的特征空间。特征选择的方法是从原始特征数据集中选择出子集，是一种包含的关系，没有更改原始的特征空间。二、特征提取的主要方法:PCALDA SVD等。(SVD本质

2022-06-21 15:45:52 4768 1

原创随机森林及scala实现

1 什么是随机森林？　　作为新兴起的、高度灵活的一种机器学习算法，随机森林（Random Forest，简称RF）拥有广泛的应用前景，从市场营销到医疗保健保险，既可以用来做市场营销模拟的建模，统计客户来源，保留和流失，也可用来预测疾病的风险和病患者的易感性。最初，我是在参加校外竞赛时接触到随机森林算法的。最近几年的国内外大赛，包括2013年百度校园电影推荐系统大赛、2014年阿里巴巴天池大数据竞赛以及Kaggle数据科学竞赛，参赛者对随机森林的使用占有相当高的比例。此外，据我的个人了解来看，一大部分成功进

2022-06-17 17:04:22 455

原创 LightGBM 算法理论及scala实现

LightGBM 采用分布式的GBDT，选择了基于直方图的决策树算法LightGBM 的动机常用的机器学习算法，例如神经网络等算法，都可以以 mini-batch 的方式训练，训练数据的大小不会受到内存限制。而 GBDT 在每一次迭代的时候，都需要遍历整个训练数据多次。如果把整个训练数据装进内存则会限制训练数据的大小；如果不装进内存，反复地读写训练数据又会消耗非常大的时间。尤其面对工业级海量的数据，普通的 GBDT 算法是不能满足其需求的。LightGBM 提出的主要原因就是为了解决 GBDT

2022-06-17 15:52:41 1249 1

原创网格搜索 scala实现

网格搜索的scala实现

2022-06-14 17:42:51 341

原创数据竞赛汇总网址

数据竞赛汇总网址

2022-06-09 18:06:12 58

原创模型评估与选择

模型评估与选择

2022-06-07 22:49:23 127

原创 machine learning 步骤

机器学习过程

2022-06-06 14:08:41 108

原创模型融合方法（待整理）

1）线性加权融合法2）交叉融合法(blending)3）瀑布融合法4）特征融合法5）预测融合法6）分类器 Boosting 思想多模型融合算法可以比单一模型算法有极为明显的效果提升。但是怎样进行有效的融合，充分发挥各个算法的长处呢，这里总结一些常见的融合方法：1）线性加权融合法线性加权是最简单易用的融合算法，工程实现非常方便，只需要汇总单一模型的结果，然后按不同算法赋予不同的权重，将多个推荐算法的结果进行加权，即可得到结果：Score是给用户（user）推荐商品（item）的得分，β是算法

2022-05-31 18:45:26 2002

原创特征选择---理论篇（待修改）

为什么要做特征选择在有限的样本数目下，用大量的特征来设计分类器计算开销太大而且分类性能差。减少特征数量/降维，使模型泛化能力更强，减少过拟合，增强对特征和特征值之间的理解。通俗讲，就是在高维小样本情况下（小n大p），模型拟合不好（统计学研究的热门方向）且浪费资源（计算机研究方向）。特征选取的原则获取尽可能小的特征子集，不显著降低分类精度、不影响类分布以及特征子集应具有稳定适应性强等特点特征选择需要考虑的问题a、确定选择算法，在允许的时间内以最小的代价找出最小的、最能描述类别的特征组合b、确定评

2022-05-31 18:43:41 549

原创关于打jar包学习过程中遇到的问题（更新中）

jar包1.打jar包的方式有哪几种java打jar包的几种方式详解.Eclipse将Java项目打成jar工具包.2.jar包是不需要包含源代码的—有人不想泄露源代码3.src是源代码文件

2022-05-31 18:16:05 91

原创 xgboost参数含义及调参scala

一.算法原理关于xgboost算法原理的资料已经非常完善，在此不赘述。用通俗的话描述算法过程，就是不断添加树去拟合上一棵树预测的残差。可以把每棵树看成一个分段函数，其定义域是每次生成叶节点时划分的域的交集。预测值yi^\hat{y_i}yi^为该样本落在每个对应叶子结点分数之和。二.参数含义Booster参数：（欠拟合——大，小）最重要的树的深度，树的数目，学习率n_estimator: 也作num_boosting_rounds这是生成的最大树的数目，也是最大的迭代次数。eta[默认是

2022-05-27 11:29:58 1823

原创 scala找jar的一个网址

scala没有xgboost现成的包，得自己导入方法一：自己mvn打包导入（历时三周，以失败告终，详细过程待补充…）方法二：从https://mvnrepository.com/下载jar包直接导入

2022-05-19 10:03:00 147

原创 Python语句整理

1.import pandas as pd import numpy as np2.载入训练集和测试集path = './****/'Train_data = pd.read_csv(path+'****', sep=' ')Test_data = pd.read_csv(path+'****', sep=' ')sep是分隔print('Train data shape:',Train_data.shape)print('TestA data shape:',Test_data.

2020-06-09 20:19:29 393

qq_46047782的博客