自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 32探索性数据分析-足球赛事数据集(含数据)

唐宇迪《python数据分析与机器学习实战》学习笔记32探索性数据分析-足球赛事数据集数据包含球员和裁判的信息,2012-2013年的比赛数据,总共设计球员2053名,裁判3147名,特征列表如下:...

2020-04-24 13:18:22 4266 3

原创 31机器学习项目实战-用户流失预警

唐宇迪《python数据分析与机器学习实战》学习笔记31机器学习项目实战-用户流失预警1.数据简单介绍挽留一个老客户的费用<扩展一个新用户费用,所以通过预测给部分老用户大礼包让其留下来。这里使用的数据为一个国外的电信商数据:这个小项目没做特征工程,大致走一下流程,所以这里只简单谈一下数据:D手机号码、E/F参加某个计划、H/I/J白天打了多少时间/个数/话费,K/L/M下午,N...

2020-04-16 22:50:16 707 1

原创 30机器学习项目实战-贷款申请最大化利润

唐宇迪《python数据分析与机器学习实战》学习笔记30机器学习项目实战-贷款申请最大化利润一、数据清洗过滤无用特征互联网贷款网站:https://www.lendingclub.com/info/download-data.action通过历史数据来决定是否放款,这里下载了2007-2011年的数据,大概有4万多个样本特征非常多:这里对其进行一些预处理:import pandas...

2020-04-14 16:29:39 637

原创 29Python时间序列分析(美国消费者信心指数及维基百科点击量EDA,含实例数据)

唐宇迪《python数据分析与机器学习实战》学习笔记29Python时间序列分析一、pandas生成时间序列常见的时间序列:时间戳(timestamp):具体时间点2020.4.6的20:58的15秒固定周期(period)时间间隔(interval)创建时间序列,最简单函数:date_range H:小时、D:天、M:月#时间的几种表达方式:2016 Jul 1 ,7/1/20...

2020-04-12 23:29:33 5540 4

原创 28Python库分析科比生涯数据

唐宇迪《python数据分析与机器学习实战》学习笔记28Python库分析科比生涯数据 基本的一个操作流程,没有多深入一、数据预处理先来看一下数据,每个样本有25个属性,包括:A:action_type(用什么方式投的篮)B:combined_shot_type(结合什么方式投篮)C:game_event_id(游戏事件ID)D:game_id(游戏ID)E:la(投篮的经度)...

2020-04-06 20:38:15 1640

原创 27scikit-learn模型建立与评估

唐宇迪《python数据分析与机器学习实战》学习笔记27scikit-learn模型建立与评估 **正式进入机器学习实战!第一个问题预测房子价值,如10~80万不等,得到的结果是一个区间值,即回归任务**。第二个问题预测接受与否,要么要要么不要,得到的是固定值,即分类任务。无论哪种任务都需要找特征值,一、线性回归模型:汽车油耗效率预测项目1.1数据介绍、导入及观察使用数据介绍...

2020-04-04 21:51:11 356

原创 25自然语言处理词向量模型-Word2Vec

唐宇迪《python数据分析与机器学习实战》学习笔记25自然语言处理词向量模型-Word2Vec自然语言处理如今越来越广泛比如以下的应用途径:为什么要将深度学习引入自然语言处理:1.语言模型通过模型之前出现的概率值去选择“今天”与“我”联系,“下午”与“我今天”联系…每个词的出现与前面出现的词有联系如果句子太长显然计算量太大了,每个词考虑前面出现的所有词,但前面所有词一起出现...

2020-04-03 21:49:01 525

原创 24Xgboost集成算法

唐宇迪《python数据分析与机器学习实战》学习笔记24Xgboost集成算法1.Xgboost的原理、推导及求解实例xgboost可以与决策树结合起来,之前用决策树都是做分类任务,但其实可以做一些回归任务。叶子节点可以结合权重项,正代表要玩游戏,负数代表不愿意玩。单棵树表达效果不太好,所以采用集成用多棵树(弱分类器)叠加评分值去评估。每增加一颗树肯定是希望表达效果变好,所以可看成提升...

2020-04-02 16:03:17 240

原创 23神经网络 :唐宇迪《python数据分析与机器学习实战》学习笔记

唐宇迪《python数据分析与机器学习实战》学习笔记23神经网络1.初识神经网络百度深度学习研究院的图,当数据规模较小时差异较小,但当数据规模较大时深度学习算法的效率明显增加,目前大数据时代利用深度学习明显效果更好。一些举例:用深度学习可以进行图片描述在这里插入图片描述用深度学习进行图片风格融合,从左到右:1为内容、2为风格、3为1的内容进行2的风格转换。计算机中图像表示为三维数...

2020-03-31 17:32:39 973

原创 22降维算法-PCA主成分分析

唐宇迪《python数据分析与机器学习实战》学习笔记22降维算法-PCA主成分分析一、算法讲解比如(3,2)是建立在我的基上,一旦改变就不能这么表达那个点了。线性无关,X轴Y轴的数据不相互影响。做事要有依据,既然映射到基,那就要 找最合适的基一堆密集的点希望投影后得到一堆比较分散的点,因此方差越大越好,方差代表一个特征的分散程度,协方差代表两个变量之间的关系,如果A、B的变...

2020-03-27 22:59:05 342

原创 19聚类算法-Kmeans ;20聚类算法-DBSCAN;21案例实战:聚类实践

唐宇迪《python数据分析与机器学习实战》学习笔记19聚类算法-Kmeans;20聚类算法-DBSCAN;21案例实战:聚类实践一、K-Means算法右边图原始数据集上没有标色,这里把类型相似的分在一块形成了3团簇。1.K-Means算法基本概念最简单也是最实用的算法大多时候使用欧式距离,加入X轴为(0.01、0.04、0.03) y轴为(105、161、261)那么X轴无论怎么...

2020-03-24 21:23:20 797 1

原创 18案例:SVM调参实例

唐宇迪《python数据分析与机器学习实战》学习笔记18案例:SVM调参实例看SVM的参数,及其基本使用1.导入模块%matplotlib inlineimport numpy as npimport matplotlib.pyplot as pltfrom scipy import stats #统计函数库scipy.stats,包含了多种概率分布的随机变量,随机变量分为连续...

2020-03-21 10:50:57 1096

原创 17支持向量机 (SVM)

唐宇迪《python数据分析与机器学习实战》学习笔记17 支持向量机(SVM)1.解决的问题非常经典的二分类问题,多个决策边界都能做分类,哪个是最好的。前提:能分得开 其次:要大部队能通过2.距离计算计算离决策边界最近的点,1式代表有两个点X’、x’'都在平面上,两个点组成了一个向量。2式代表两个向量垂直。3式:垂线距离不好算,就先算点到点的距离,再做一个垂直方向的投...

2020-03-15 22:44:20 179

原创 16Python文本数据分析:新闻分类任务 (贝叶斯算法应用实例)

唐宇迪《python数据分析与机器学习实战》学习笔记16Python文本数据分析:新闻分类任务 (贝叶斯算法应用实例)**一、流程分析**数据如下图:content为主体内容,1.1 停用词:在语料中大量出现又没啥大用,会干扰统计分析,因此去掉。(例如:一个、一切、¥、#等),网上搜索停用词表,匹配过滤。1.2 Tf-idf:关键词提取 :这里修改一下:词频=(某个词在文章出现...

2020-03-14 11:03:46 2317 3

原创 15贝叶斯算法(输入纠正、垃圾邮件过滤、贝叶斯拼写检查器含数据)

唐宇迪《python数据分析与机器学习实战》学习笔记15贝叶斯算法**1.算法推导**转换为分母传裤子的比例,分子女生穿裤子的比例B情况下A发生的概率 = A情况下B发生的概率*A的概率/B的概率**2.举例一:输入纠正****3.举例二:垃圾邮件过滤问题**原始贝叶斯问题转换为朴素贝叶斯问题,假设特征独立**4.贝叶斯拼写检查器**...

2020-03-12 22:20:17 257

原创 14案例实战:泰坦尼克获救预测(线性回归、逻辑回归、随机森林、Kfold交叉验证、Bagging类型集成算法)

唐宇迪《python数据分析与机器学习实战》学习笔记14案例实战:泰坦尼克获救预测目的:将之前学过的机器学习算法应用在实际场景中,这里使用的是泰坦尼克号获救数据一、数据观察与预处理数据如下:1列为编号,2列为是否存活(标签),然后分别为船舱等级、姓名、性别、年龄、船上多少个亲人、船上你的老人+孩子多少个、船票编号、船票价格、船舱位(缺失多)、上船码头。数据导入,并统计一下每个特征:发现...

2020-03-10 23:32:58 2932

原创 13集成算法与随机森林(Bagging、Boosting、Stacking)

唐宇迪《python数据分析与机器学习实战》学习笔记13集成算法与随机森林竞赛题使用较多中准确率较高,三种集成算法1.Bagging模型(并形算法)并行训练多棵树,结果累加取平均。随机森林构造了N棵树,最终结果把树进行分类取众数。二重随机性:数据采样随机性(例如100个有放回选60-80个),特征随机性(寻则部分特征)feature比较原理,举例:比如ABCD四个特征,B为年龄...

2020-03-09 20:13:57 375

原创 11决策树算法;12案例实战:使用sklearn构造决策树模型(含数据)

唐宇迪《python数据分析与机器学习实战》学习笔记11决策树算法+12案例第一部分:算法例如:将家里人分类,可以先分年龄再分性别决策树组成:根节点,非叶子节点与分支,叶子节点。越多的特征越多的节点,每多一个特征,深度越深一、特征选择顺序的衡量标准-熵值信息增益率选择信息增益率最大的为根节点GINI系数二、决策树减枝策略Cα(T)“母节点”的叶...

2020-03-08 15:55:09 1345

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除