
机器学习实战
常耀斌
CTO,AI科学家。2024年,清华大学出版社发行《大数据架构之道和项目实战》《AI赋能企业数字化转型》《深度学习和大模型实战》
展开
-
机器学习处理平台标准化的设计思想
标准化流程设计V1.01.问题抽象这里的抽象成数学问题,指的我们明确我们可以获得什么样的数据,目标是一个分类还是回归或者是聚类的问题,如果都不是的话,如果划归为其中的某类问题。2. 数据整合获取数据包括获取原始数据以及从原始数据中经过特征工程从原始数据中提取训练、测试数据。机器学习比赛中原始数据都是直接提供的,但是实际问题需要自己获得原始数据。“ 数据决定机器学习结果的上限,而算法只...原创 2018-09-03 13:01:27 · 765 阅读 · 0 评论 -
机器学习之分类和回归区别阐述
很多人分不清楚分类和回归,我来讲一下,我们经常会碰到这样的问题:1、如何将信用卡申请人分为低、中、高风险群?2、如何预测哪些顾客在未来半年内会取消该公司服务,哪些电话用户会申请增值服务?3、如何预测具有某些特征的顾客是否会购买一台新的计算机?4、如何预测病人应当接受三种具体治疗方案的哪一种?5、如何预测一位顾客在一次销售期间将花多少钱?6、如何预测银行可以安全地贷给贷款人的...原创 2018-09-30 09:31:00 · 2258 阅读 · 0 评论 -
IDEA常用快捷键实战总结
Ctrl+F:在当前文件中查找(必备)Ctrl+R:在当前文件中进行文本替换(必备)Ctrl+Z:撤销(必备)Ctrl+Y:删除光标所在行 或 删除选中的行(必备)Ctrl+X:剪切光标所在行 或 剪切选中的行(必备)Ctrl+C:复制光标所在行 或 复制选择内容Ctrl+D:复制光标所在行或复制选择内容,并把复制的内容插入光标位置下面(必备)Ctrl+Alt+L:格...原创 2018-07-30 10:23:19 · 301 阅读 · 1 评论 -
常见分类算法(逻辑回归和SVM等)比较
原创 2018-08-03 11:06:51 · 1848 阅读 · 1 评论 -
IDEA开发环境安装最全详解
IDEA开发环境构建前言IDEA 全称IntelliJ IDEA,是java语言开发的集成环境,IntelliJ在业界被公认为最好的java开发工具之一,尤其在智能代码助手、代码自动提示、重构、J2EE支持、Ant、JUnit、CVS整合、代码审查、 创新的GUI设计等方面的功能可以说是超常的。另外对于用scala开发spark要更加友好一些。 IDEA的功能相较于Eclipse等常用开发工具强...原创 2018-07-30 10:20:35 · 14882 阅读 · 1 评论 -
机器学习:SVM算法预测实战
object DiseasesPredict { def main(args: Array[String]) { val conf = new SparkConf() //创建环境变量 .setMaster("local") ...原创 2018-08-03 14:19:14 · 3658 阅读 · 0 评论 -
机器学习:随机森林算法实战
object ForestTest { def main(args: Array[String]): Unit = { val conf=new SparkConf().setAppName("DesionTrain").setMaster("local[2]") val sc=new SparkContext(conf) // 加载数据 val data...原创 2018-08-03 14:22:08 · 1043 阅读 · 1 评论 -
机器学习:决策树算法实战
object DecisionTreeTest { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("DesionTrain").setMaster("local[2]") val sc = new SparkContext(conf) // 加载数据 ...原创 2018-08-03 14:24:08 · 337 阅读 · 0 评论 -
机器学习:主成份分析算法实战
object PCA { def main(args: Array[String]) { val conf = new SparkConf() //创建环境变量 .setMaster("local") //设置本地...原创 2018-08-03 14:28:36 · 207 阅读 · 0 评论 -
机器学习:协同过滤算法实战
object CollaborativeFilter { def main(args: Array[String]) { val conf = new SparkConf().setMaster("local").setAppName("CollaborativeFilter ") //设置环境变量 val sc = new SparkContext(conf) ...原创 2018-08-05 19:36:51 · 361 阅读 · 0 评论 -
机器学习之决策树SaprkMlib代码实战
决策树含义:一种监督学习:每一个样本都有一组属性和一个分类,通过学习构建分类器,这个分离器可以对新出现的对象进行正确分类,从一组无序的样本中总结出符合要求的分类规则。决策树的构建方法:信息增益最大的作为根节点决策树的算法基础ID3算法(信息增益),C4.5(信息增益率)实现:Val data = MLUtil.loadLibSVMFile(sc, “c://DT.txt”);...原创 2018-07-25 13:41:57 · 308 阅读 · 0 评论 -
机器学习模型评估指标详细解释
TP: true(预测是正确),positive(预测为正样本)FN: false(预测是错误),negative(预测为负样本)TN: true(预测是正确),negative(预测为负样本)FP: true(预测是错误),positive(预测为正样本)P(实际为正样本)=TP+FN;N(实际为负样本)=TN+FP正确率(accuracy)=TP+TN/P+N...原创 2018-07-25 13:35:40 · 518 阅读 · 0 评论 -
常用机器学习算法库的对比和分析
R是一种数学语言,里面封装了大量的机器学习算法,但是它是单机的,不能够很好的处理海量的数据。Weka和R语言类似,里面包含大量经过良好优化的机器学习和数据分析算法,可以处理与格式化、数据转换相关的各种任务,唯一的不足就是它对高内存要求的大数据处理遇到瓶颈。 Mahout是hadoop的一个机器学习库,有海量数据的并发处理能力,主要的编程模型是MapReduce。而基于MapRed...原创 2018-08-15 09:56:05 · 2852 阅读 · 0 评论 -
机器学习之决策树详解与实践
决策树是用于分类和预测的一种树结构,决策树方法常用于类别属性的数据集的分类和预测,对于数值属性的数据集,可以经过数据预处理后使用。决策树的建立是基于样本的递归的学习过程,每个样本都是具有确定的属性的数据,决策树就是基于样本的各属性建立起来的。决策树分为根节点、内部节点和叶节点。从根节点出发,自顶向下,构建分支和内部节点,在内部节点进行属性值的比较,并根据属性的不同取值确定从该节点向下的分支,最...原创 2018-09-02 10:24:08 · 487 阅读 · 0 评论 -
机器学习之支持向量机详解与实践
支持向量机是由Vapnik等人提出的一种机器学习算法,在解决小样本、非线性及高维模式识别中表现出独特的优势,并逐步推广到函数拟合等其他机器学习问题中。其主要思想是将低维空间的样本通过非线性变换映射到高维空间,从而将低维空间的线性不可分问题转化为高维空间的线性可分问题。具体实现是用低维空间中满足一定条件的核函数实现高维空间中的内积运算,从而构造高维空间中的最优分类超平面,达到分类目的。支持向...原创 2018-09-02 11:34:13 · 622 阅读 · 0 评论 -
机器学习之逻辑回归详解和实践
回归分析是数据挖掘中的一种重要方法,是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理,旨在确定两种或两种以上变量间相互依赖的定量关系,主要用于预测、分类和因素分析。回归分析的基本原理是找到反映输入变量和输出变量间关系的回归方程,利用回归方程完成预测、分类和因素分析的任务。 逻辑回归(Logistic Regression)是回归分析的一种...原创 2018-09-02 15:25:09 · 529 阅读 · 0 评论 -
机器学习之SGD详解和实践
假设特征和结果满足线性关系,即满足一个计算公式h(x),这个公式的自变量就是已知的数据x,函数值h(x)就是要预测的目标值。这一计算公式称为回归方程,得到这个方程的过程就称为回归。假设房子的房屋面积和卧室数量为自变量x,用x1表示房屋面积,x2表示卧室数量;房屋的交易价格为因变量y,我们用h(x)来表示y。假设房屋面积、卧室数量与房屋的交易价格是线性关系。满足公式上述公式中的θ为参...原创 2018-09-02 16:08:21 · 5139 阅读 · 0 评论 -
机器学习之主成份分析PCA详解与实践
在PCA中,数据从原来的坐标系转换到新的坐标系,新坐标系的选择是由数据本身决定的。第一个新坐标轴选择的是原始数据中方差最大的方向,第二个新坐标轴选择和第一个坐标轴正交且具有最大方差的方向。该过程一直重复,重复次数为原始数据中特征的数目。我们会发现,大部分方差都包含在最前面的几个新坐标轴中。因此,我们可以忽略余下的坐标轴,即对数据进行降维处理。PCA降维的两个准则: 最近重构性:样本集中所有点...原创 2018-09-03 09:41:41 · 538 阅读 · 0 评论 -
机器学习的数据训练和预测过程分析
如何在海量的数据中识别出4G 客户?并进而认知 4G 客户的特征特点,为相关部门对这部分客户进行重点宣传、发送 E-mail 提供决策支持,以提升预期的宣传效果?本案例的挖掘目标是: 构建客户识别分类模型,并进行特征分析...原创 2018-09-30 09:37:57 · 4430 阅读 · 0 评论