数据挖掘
本人学习数据挖掘的记录
偲偲粑
这个作者很懒,什么都没留下…
展开
-
数据挖掘day10-CS229-Convex Optimization Overview
斯坦福课程CS229的补充材料Convex Optimization Overview。我感觉从今天起,学习笔记会变成我的单词本(⊙﹏⊙)b,不知如此,很多相关概念、符号,大学期间也是没有学过的,这篇笔记都会记录。首先当然是找到中文材料,补充理解 Github翻译CS229项目,知乎上的读书笔记...原创 2020-01-02 22:51:55 · 278 阅读 · 0 评论 -
数据挖掘day9-CS229-Linear Algebra Review and Reference
因为计划先看的凸优化,但是发现其中很多符号不认识(不同的机构使用的不一定一样)。过两天才看到这个线性代数综述,我觉得应该是我的顺序搞反了,所以,将这一篇的日期顺序排的靠前点。其实我更推荐看原文章或翻译:中文翻译,不过这里我会把公式都打出来,主要是联系一下Latax。1、基本概念和符号方程组:4x1−5x2=−134x_1-5x_2=-134x1−5x2=−13−2x1+3x2=9-2x...原创 2020-01-02 22:51:14 · 505 阅读 · 0 评论 -
数据挖掘day34、36-CS229-WEEK7 Support Vector Machines
1、优化目标与逻辑回归的的代价函数类似,SVM的代价函数如下:2、大间距分类器SVM是大间距分类器,因为他总是选间距最大的边界线。原创 2020-01-02 22:50:16 · 187 阅读 · 0 评论 -
数据挖掘day12-CS229-Review of Probability Theory
没找到中文翻译,只能自己做翻译了概率论是对不确定性的研究。通过这个课程,我们将依靠概率论的概念来推导机器学习算法。 本文试图概括适合于CS 229水平的概率论基础知识。概率的数学理论非常复杂,其深层次内容为测量理论的分支。 在这些文档中,我们提供了概率的基本处理,但没有解决这些细节问题。1、概率基本元素为了定义集合上的概率,我们需要一些基本元素:• 样本空间Ω\OmegaΩ:随机实验的所有...原创 2020-01-02 22:49:39 · 295 阅读 · 0 评论 -
《python》编程导论 第1/2/3/4章
前几章比较简单,本文纯粹是为了对基本概念做个记录,顺便码一下。第三章3.3 近似解和二分查找3.3.1 平方根迭代近似解x=25epsilon = 0.01 step = epsilon**2numGuesses = 0ans = 0while abs(ans**2-x) >= epsilon and ans <= x: ans += step num...原创 2019-11-03 19:55:06 · 217 阅读 · 0 评论 -
数据挖掘day22、23-《数据挖掘导论》-第四章,4.1-4.3.7 决策树
决策树的实现相对我这种新手比较难,参考了一篇文章数据挖掘领域十大经典算法之—C4.5算法(超详细附代码)树类1、参考但是,他里面写的内容比较散乱,明显没有书本P101的框架明白,因此仅参考了他的‘树’类。class Tree(object): def __init__(self,node_type,Class = None, feature = None): sel...原创 2019-08-28 00:39:50 · 460 阅读 · 0 评论 -
数据挖掘day24、25-《数据挖掘导论》-第四章,4.4-4.6 模型评估
本篇内容多是概率论,统计学已经学过。将第四章的思维导图贴上来。原创 2019-08-28 12:14:38 · 258 阅读 · 0 评论 -
数据挖掘day26、27-CS229-WEEK4 Neural Networks:Representtation
文章目录1、神经元(neuron)2、神经网络(Neural Network)表示3、向量化4、例子4.1 单个神经元例子本节仅是对神经网络的背景知识介绍和神经网络的表述方式进说明。因为生物学知识不难,理解也还行。1、神经元(neuron)下图是以左侧表示神经网络的一个神经元(这个神经元对应的就是简单的逻辑回归)。2、神经网络(Neural Network)表示下图表示一个神经网络从...原创 2019-08-29 16:04:42 · 193 阅读 · 0 评论 -
数据挖掘day28、29-CS229-WEEK4 Neural Networks:Learning
本节主要是介绍神经网络的反向传播算法。深度学习中文讲义1、代价函数(Cost function)令k为输出层的个数,当k>=3时,使用多元表达。所以,神经网络的代价函数一般形式,需要对k个输出求和,如下注意到正则化项,由j=1开始,因为类似x0x_0x0之类的项,通常都不做正则化。2、选择神经网络框架1、输入和输出都是确定的。2、一般采用一个隐藏层,如果有多个隐藏层,其维...原创 2019-08-29 21:32:13 · 160 阅读 · 0 评论 -
数据挖掘day34-CS229-WEEK6 Advice for Applying Machine Learning
1、如何改进模型?当已经完成一个机器学习模型,而效果并不符合要求时,该如何进行改进?改进的方向有如下:1、获取更多训练集;2、挑选特征,用更小的特征集进行学习;3、获取训练集数据的更多特征信息,构建更大的特征集;4、使用更复杂的特征(x12,x22,x1x2x_1^2,x_2^2,x_1x_2x12,x22,x1x2)等;5、减小λ\lambdaλ;6、加大λ\lambda...原创 2019-08-31 22:38:45 · 138 阅读 · 0 评论 -
数据挖掘day20、21-《数据挖掘导论》-第三章,探索数据
文章目录3.3.3-1、少量属性的可视化1.1 茎叶图1.2 直方图(histogram)1.3 二维直方图(two-dimensional histogram)1.4 盒状图(box plot)1.5 饼图(pie plot)1.6 经验累积分布函数(ECDF)1.6 百分位数图(percentile plot)1.7 散布图矩阵(scatter plot matrix)1.8 散布图1.9 三...原创 2019-08-07 10:04:52 · 799 阅读 · 0 评论 -
数据挖掘day13-CS229-WEEK1 Introduction
今天内容是CS229 机器学习的介绍,比较简单,就做了个简单的思维导图原创 2019-07-28 16:56:27 · 176 阅读 · 0 评论 -
数据挖掘day16、17-CS229-WEEK3 Logistic Regression
今天参考github的项目进行分类实现,使用的是课程课后练习数据使用的是随机梯度下降,α\alphaα的选择和遍历次数设置,还是复杂一点。原 文章用的数据分类清晰,效果比较好,课后习题的数据分类比较模糊,如果输出的不是’0‘、’1’,而是hθ(x)h_{\theta}(x)hθ(x)。要达到较好的效果(收敛)需要遍历350次,如果只是画边界线的话,30次就不错了。下图是遍历30次的图像,明...原创 2019-08-01 19:36:56 · 146 阅读 · 0 评论 -
数据挖掘day02-微积分的本质04~06
文章目录04、直观理解链式法则和乘法法则Q1、复合函数如何求导?1.1、对于```加法法则:两个函数的和的导数,就是他们的导数和```1.2、对于```乘法法则:左乘右导,右乘左导```1.3、```链式法则:```05、指数函数求导?06、隐函数求导是怎么回事?Q1、对$x^2+y^2=5$,求导是怎么回事?Q2、对$y=ln(x)$,求导是怎么回事?04、直观理解链式法则和乘法法则Q1、复...原创 2019-07-16 21:56:09 · 240 阅读 · 0 评论 -
数据挖掘day01-微积分的本质01~03
d(1x)=1x+dxd\left(\frac{1}{x}\right)=\frac{1}{x+dx}d(x1)=x+dx1d(1x)x=(1x)dxd\left(\frac{1}{x}\right)x=\left(\frac{1}{x}\right)dxd(x1)x=(x1)dx原创 2019-07-16 09:27:41 · 197 阅读 · 0 评论 -
数据挖掘day08-线性代数的本质09~11
09、基变换矩阵变换其实就是由基向量变换形成的,也就是之前第三、四章写的内容。1、在一个坐标轴,向量都由基向量变换组成,向量[xy]\left[ \begin{matrix}x \\ y \end{matrix} \right][xy],中x,y只是记录变换的数值,其实就是[x∗iy∗j]\left[ \begin{matrix}x*i \\ y*j \end{matrix} \right]...原创 2019-07-23 21:37:29 · 149 阅读 · 0 评论 -
数据挖掘day05-线性代数的本质01~03
01、向量究竟是什么?物理专业:向量就是空间中的箭头,特征是长度和方向(这样的话,向量是可以随意移动的)计算机专业:向量是有序的数字列表,例如:list、array数学家:概况两种说法,向量可以是任何东西,只要是两个向量相加和数字和向量相乘都有意义就行在数学方面,向量起点在0点,不移动一、数字向量与几何向量统一将向量写作其终点的值。,向量加法就不写了。。。二、向量乘法向量的乘法:...原创 2019-07-19 16:42:58 · 192 阅读 · 0 评论 -
数据挖掘day03-微积分的本质07~09
文章目录07、极限G1、导数的正式定义G2、极限的定义G3、洛必达法则08、积分和微积分基本定理09、面积和斜率有什么关系?07、极限因为之前的内容,都是直观性的讲解,所以本节是要准确的给出3个定义:G1、导数的正式定义下面写法等价,dfdx(2)=limx→0f(2+h)−f(2)h\frac{df}{dx}(2)= \lim _{x \to 0 }\frac{f(2+h)-f(2)...原创 2019-07-17 14:52:59 · 463 阅读 · 0 评论 -
数据挖掘day06-线性代数的本质04~06
04、矩阵乘法与线性变换复合本节还是讨论上一节矩阵变换和矩阵乘法的关系。假设第一次进行旋转变换,第二次进行剪切变换,实际就是下面的矩阵乘法:(首先变换的一定在右,矩阵是左乘的!),就像函数式的写法一样。因为变换顺序不一样,结果是不同的,所以顺序不能变。所以,矩阵乘法的公式是这样的:所以,矩阵乘法的结合律,是非常清楚地,因为是从右往左,所以括号并没有改变顺序但是,实际还有问题没有搞得...原创 2019-07-20 23:17:24 · 191 阅读 · 0 评论 -
数据挖掘day07-线性代数的本质07~08
07、点积与对偶性以下内容可能与原视频不一致,都是记录我自己的理解,原视频地址 线性代数的本质点积,定义:内积空间。几何意义:V⃗⋅W⃗\vec V·\vec WV⋅W,是W⃗\vec WW在V⃗\vec VV上的投影长度乘以V⃗\vec VV的长度,这样,有3种情况,W⃗\vec WW的投影方向与V⃗\vec VV相同、相反、垂直,对应点积+、-和0。将其中一个向量例V⃗\vec VV...原创 2019-07-21 22:41:18 · 169 阅读 · 0 评论 -
数据挖掘day18、19-《数据挖掘导论》-第一章,第二章
第一章仅是介绍,第二章数据很重要,但是都是概念性的东西,做一张思维导图原创 2019-08-04 21:00:55 · 233 阅读 · 0 评论 -
数据挖掘day14、15-CS229-WEEK2 Linera Regression
1、本节思维导图2、Python实现参考文章数据使用课程的课后练习,J的图像:# Use these for your excerise theta0s = np.linspace(-1,1,50)theta1s = np.linspace(0,1.5,50)COST = np.empty(shape=(50,50))# Meshgrid for paramaters T0S,...原创 2019-07-31 20:43:05 · 205 阅读 · 0 评论 -
数据挖掘day04-微积分的本质10~11
文章目录10、脚注-高阶函数11、泰勒级数10、脚注-高阶函数本节只是为了下一节做铺垫,说一下什么是高阶函数例如,路程函数 s(t)s(t)s(t)二阶导数就是,导数的导数;后面同理;11、泰勒级数泰勒公式-百度百科泰勒公式是将一个在x=x0x=x_0x=x0处具有n阶导数的函数f(x)f(x)f(x)利用关于(x−x0)(x-x_0)(x−x0)的n次多项式来逼近函数的方法。...原创 2019-07-18 13:45:36 · 191 阅读 · 0 评论