![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python数据挖掘
TccccD
这个作者很懒,什么都没留下…
展开
-
数据挖掘实践与我的想法之特征工程
从一个最近的天池数据挖掘比赛--商铺定位赛,记录部分特征工程实践内容。 本博客采用二分类XGBOOST模型,同时涉及部分的多分类模型。原创 2017-11-29 14:58:54 · 3611 阅读 · 0 评论 -
用Python进行数据挖掘(数据预处理)
用Python进行数据挖掘(数据预处理)本博客进行数据预处理的方法总结自kaggle的几道题目: 1.HousePrices 2.Titanic 以及比较不错的几个kernels: 1.https://www.kaggle.com/pmarcelino/house-prices-advanced-regression-techniques/comprehensive-data-explora原创 2017-08-27 19:42:23 · 113350 阅读 · 8 评论 -
机器学习笔记:朴素贝叶斯
朴素贝叶斯优点:在数据较少的情况下仍然有效,可以处理多类别问题;缺点:对于输入数据的准备方式较为敏感;适用数据类型:标称型数据。这里用到的贝叶斯准则:p(c|x,y)=p(x,y|c)*p(c)/p(x,y)而这个准则可以由我们熟悉的全概率公式推导出来:p(x,y|c) = p((x,y)·c)/p(c)当然这是站在仅限的大学高数知识所能想到的贝叶斯准则:·原创 2017-07-29 18:08:21 · 590 阅读 · 1 评论 -
《机器学习实战》书中python2.7与3.6的区别-持续更新
《机器学习实战》书中使用的是python2.7,而对于现在新接触python的同学来说都是上手python3.6版本。由于本渣渣也正在学习此书,将陆续列出遇到的不同于现实编码的困难与解决方法(如果能解决的话.......)。1.在import numpy时候,书中提倡from numpy import *而我们在学习python3.6时常用import numpy as np,原创 2017-07-27 15:23:35 · 7760 阅读 · 0 评论 -
机器学习笔记:决策树
决策树优点:计算复杂度不高,输出结果易于理解,对中间值得缺失不敏感,可以处理不相关特征数据。缺点:可能会产生过度匹配问题适用数据类型:数值型和标称型如图为决策树的一个形式,最后有“no”、“yes”两个分类结果。原创 2017-07-27 10:29:27 · 312 阅读 · 0 评论 -
机器学习笔记:kNN算法
k-近邻算法优点:精度高、对异常值不敏感、无数据输入假定。缺点:计算复杂度高、空间复杂度高适用数据范围:数值型和标称型k的含义:我们只选择样本数据集中前k个最相似的数据,通常不大于20,在这k个数据集中选择出现次数最多的分类作为新数据的分类。kNN算法有很多不同类型,这里介绍的是利用字典存储每个标签出现的频率,operator操作键值进行排序,返回出现最多的分类名称的方原创 2017-07-26 17:10:03 · 419 阅读 · 0 评论 -
机器学习-数据挖掘-千千问------更新时间 2018.3.23
问项目谈谈你最熟的或者做的时间最长的项目描述项目解决的问题描述数据挖掘竞赛解决的问题描述对问题的分析描述解决方案的流程,数据挖掘的流程怎么做特征工程的 数据预处理的方法有哪些 归一化标准化方法有哪些对缺失值处理方法有哪些对项目的数据做了哪些处理怎么提取特征的,提取特征的方法提取了多少特征,特征的维度,哪些特征比较好对特征的评估方法是什么,怎么判断其好坏用了什么模型 ...原创 2018-03-23 19:21:40 · 473 阅读 · 2 评论