数据挖掘
skywander0
虽千万人吾往矣!
展开
-
matplotlib绘制
matplotlib绘制好久没有更新博客了,最近沉迷于画图,刚好写个博客来记录下,先给个漂亮的气泡图。这个是使用matplotlib的散点图画出来的。具体的代码很简单,如下所示:import matplotlib.pyplot as pltimport numpy as npimport pandas as pdimport warnings import randomimpor...原创 2019-11-05 21:34:57 · 565 阅读 · 0 评论 -
matplotlib学习
记录下最近学习的matplotlib。import matplotlib.pyplot as pltimport numpy as np plt.rcParams['font.sans-serif']=['SimHei']##中文黑体def f(t): return np.exp(-t)*np.cos(2*np.pi*t)t1=np.arange(0.0,5.0,0.1)t2=...原创 2019-03-15 22:05:44 · 4065 阅读 · 0 评论 -
adaboost代码详细分析
在学习adaboost时遇到的一些问题,和对源代码功能的一些记录,程序来源于菊安酱的机器学习的ppt,虽然作者也对其做了很详细的注解但是由于本人水平的限制很多地方没有看懂,所以就又加了一些注解,可以增加自己的记忆。import numpy as npimport pandas as pd #获得特征矩阵和标签矩阵 def get_Mat(path): dataSet = pd.r...原创 2019-03-24 16:07:55 · 5870 阅读 · 3 评论 -
knn手写数字识别
import numpy as npimport osfrom numpy import *def knn(k,testdata,traindata,labels): traindatasize=traindata.shape[0]####获取行数 dif=tile(testdata,(traindatasize,1))-traindata####将行数扩展和训练集一样,并...原创 2019-04-10 22:37:59 · 4084 阅读 · 0 评论 -
朴素的贝叶斯
import numpy as npyimport os#P(B|A)=P(A|B)*P(B)/P(A)#####P(类别|特征)=P(特征|类别)P(类别)/P(特征)‘’‘假设数据集是这样,最后一列是特征(labels),前面两列是数据(dataset)’‘’| 天气 | 心情 | 是否打球 ?| | 1 | 1 | 1 | | 0 | 1 ...原创 2019-04-09 10:41:09 · 1902 阅读 · 0 评论 -
数据挖掘招聘关键字分析
想以后从事数据挖掘行业,但是想看看这个行业对于工作能力有什么样的要求,一般招聘的时候都需要什么有什么样的基础能力,所以就打算先爬取智联上关于数据挖掘的岗位的招聘要求及其职责,然后根据结巴分词,提取关键字,看看哪些词汇出现的频率比较高,这样就知道数据挖掘这个行业一般对于从业有什么样的要求的。当然提取出来的关键字肯定是有一些无用的信息,这个需要我们去进一步的甄别。首先是爬取智联招聘的数据挖掘岗位的招...原创 2019-04-03 13:38:44 · 6783 阅读 · 2 评论 -
GDBT,XGBOOST和LIGHTGBM
转载于:http://www.360doc.com/content/18/0101/17/40769523_718161675.shtml仅用于学习本文主要简要的比较了常用的boosting算法的一些区别,从AdaBoost到LightGBM,包括AdaBoost,GBDT,XGBoost,LightGBM四个模型的简单介绍,一步一步从原理到优化对比。AdaBoost原理原始的AdaBoost...转载 2019-04-16 09:46:18 · 197 阅读 · 0 评论 -
线性回归算法源码分析
线性回归就是用一条直线去拟合所有的数据点,使得这些数据点拟合出来的误差最小。一般使用平方误差最小来作为标准去寻找线性回归的系数ws。用平方误差来作为标准是严格的数学证明的。大概证明的思路是这样的,假设y=f(x)+c,其中f(x)是线性回归函数,c通过线性回归获得的结果与真实值y之间的误差,我们假设c服从于(0,v)的正态分布,我们可以使用极大似然估计出取得最佳的系数w时,必然是取最小的平方误差...原创 2019-04-14 15:52:20 · 1251 阅读 · 1 评论