![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
to be a good girl
数据分析,SQL,机器学习
升级打怪
展开
-
数据挖掘基础知识
主要的数据挖掘模块:NumpyPandasmatplotlibStatsModelsScipyScikit-LearnKerasGensimpandas中的一些函数DataFrame或者Series的对象方法名函数功能sum()求和(按列)mean()算数平均数var()方差std()标准差corr()Spearman...原创 2019-05-29 23:10:39 · 311 阅读 · 0 评论 -
python简单实现支持向量机
支持向量机(SVM)代码实现支持向量机是一个重要的分类算法,在上一篇文章中简单地介绍了它的一些理论知识,这篇文章是简单讲一下如何用python训练一个svm模型导入所需的数据库import numpy as npfrom sklearn import datasetsfrom sklearn.pipeline import Pipelinefrom sklearn.preproce...原创 2019-08-08 22:14:35 · 740 阅读 · 0 评论 -
数据挖掘之朴素贝叶斯
上篇内容:数据挖掘面试之SVM0x00 前言我们知道,概率模型的训练过程其实就是求参数估计的过程。贝叶斯学派认为参数是随机变量,其本身也可以有分布,我们可以通过假定参数服从一个先验分布,然后基于观测到的数据来计算参数的后验分布。而在许多招聘数据挖掘工程师岗位的要求中,熟悉贝叶斯算法算是基础的要求了。本篇文章主要是讲在面试中可能会遇到的贝叶斯算法中的朴素贝叶斯问题。0x01 贝叶斯准备知识问...原创 2019-08-05 13:51:44 · 1036 阅读 · 0 评论 -
数据挖掘面试之SVM
SVM(上)理论知识本文简单讲述了SVM的一些小问题~0x00 前言有人认为支持向量机是所有机器学习算法中最难的一个了,但是仔细去看数据挖掘的招聘要求,你会发现支持向量机(SVM)出现的频率异常地高。果然,该过的坎再难都得跨,那就让我们一起来看看SVM究竟是什么吧~0x01 初始SVM问题1:你能给我讲讲什么是SVM吗?回答:SVM是一种二分类模型,它的基本模型是在特征空间中寻找间隔最...原创 2019-08-04 13:37:00 · 388 阅读 · 0 评论 -
逻辑回归(下)代码实现
预测癌症状况data = pd.read_csv('./data.csv')data = data.replace(to_replace = '?', value = np.nan).dropna()对数据进行划分x = data.loc[:, data.columns != 'Class']y = data.loc[:, data.columns == 'Class']x_trai...原创 2019-07-24 22:54:04 · 212 阅读 · 0 评论 -
决策树(下)代码实现
决策树python代码实现目的:使用决策树预测糖尿病数据源: https://www.kaggle.com/uciml/pima-indians-diabetes-database#diabetes.csv# 导入数据包import pandas as pdfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.model...原创 2019-07-15 23:46:42 · 336 阅读 · 0 评论 -
决策树(上)理论知识
决策树理论知识一、学习目的决策树学习的目的是为了找到产生一颗泛化能力强,即处理未见示例能力强的决策树,遵循“分而治之”的策略。二、信息熵、信息增益、基尼系数1、 信息熵: 熵是表示随机变量不确定性的度量。(简单点理解就是:如果你去苹果专卖店买手机,那么苹果手机在苹果专卖店中存在的概率就很大,相对的,信息熵就很小。而你去杂货店买本子,因为杂货店的货物比较混乱 ,那本子在杂货店中存在的概率...原创 2019-07-15 21:15:53 · 337 阅读 · 0 评论 -
主成分回归python实现
主成分分析python实现这是我一直都想写的内容,但是迟迟没有动手开始写,主要的原因是没有理解python中PCA降维后再进行回归时应该要怎么做。再网上查了很多资料,也没有这方面的讲解,书上也是讲到了PCA降维就结束了。以下是我使用R语言的思想写的code,日后若找到相关的内容再进行修改。先介绍一下sklearn中PCA模型的参数及方法:参数:n_components : int,floa...原创 2019-06-10 22:40:56 · 11598 阅读 · 9 评论 -
主成分分析理论知识
主成分分析理论知识1、主成分分析是将多指标化为少数几个综合指标的一种统计分析方法。在实际问题中, 研究多指标的问题是经常遇到的问题,由于变量个数太多,彼此之间存在着一定的关联性,因而使得所观测到是数据在一定程度上所反映的信息会有所重叠。主成分分析是一种降维的思想,利用较少的变量尽可能多地反映原来变量的信息,而且彼此之间互不相关。2、主成分分析的应用:指标分类(变量分类)、样品分类、样...原创 2019-06-09 21:20:06 · 2679 阅读 · 0 评论 -
数据挖掘知识点串烧:逻辑回归
数据挖掘知识点串烧:逻辑回归0x00 前言我们知道,回归模型可以解决因变量为连续变量的问题,但是,如果因变量为分类变量的话,用回归的方法就行不通了。这个时候我们就得选择用其他的分类方法了,如决策树、随机森林、SVM等。而本篇文章要说的逻辑回归也是一种很好的分类方法。我们需要明确的一点是,逻辑回归虽然是“回归”,但是它本质上是一种二分类算法,用来处理二分类问题的。0x01 走近逻辑回归问题1...原创 2019-08-27 14:35:06 · 248 阅读 · 0 评论