自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 数据库原理 ----- ER图,关系模型,FD,BCNF,3NF

1.    ER图每个实体集里面都有至少一个关键属性(可能是多个属性组成的集合),在此属性下每个实体各不相同。键是一组最小的属性集合,它们的值能够唯一地确定实体集中的每个实体。候选键:可以作为key属性的最简形态(缺一不可)可以存在多个候选键主键:候选键中选出一个最主要的key属性 ,用来唯一确定实体超码:所有能成为key属性的属性及其集合(可以有冗余属性,可能删掉其中一两

2016-05-26 14:30:20 14631

原创 BP神经网络

神经网络(无监督)神经网络主要用来做分类,可以实现无监督的学习。 神经网络由很多神经网络层构成,而每一层又由许多单元组成,第一层叫输入层,中间的叫隐藏层,最后一层叫输出层。最后一层的输出是用来描述测试集的类别,最后预测结果选择最大的那个神经元。每一个神经单元都有一定的能量,作为它的输出。在BP神经网络中,只有相邻神经层的单元之间才有联系,它们的连接有一个权重,其值在[-

2016-05-26 10:19:02 2604

原创 数据挖掘之 时间序列分析

时间序列是指按时间顺序排列的一组数据,这些数据有两个特点:趋势和季节性趋势:总体情况        季节性:周期性波动时间序列挖掘的基本思路:根据之前已有的序列数据,发现隐含的规则,来预测后面的发展趋势实现方法:首先对序列进行分割,根据某些特征进行聚类,得到少数几个模式,                将模式进行符号替换,将时间序列转换为符号序列,然后采用序列模式发现算法进行关联挖

2016-05-26 01:04:49 11733

原创 基于MapReduce编程模型的数据挖掘算法

Mapreduce是一个分布式计算模型,用来解决海量数据的计算问题。首先打个比方,我们要做菜,你切牛肉,我切土豆,这就是“Map”。我们人越多,切得就越快。然后我们把切好的牛肉和土豆放到一起,这就是“Reduce”。(1)  Map阶段将一个大任务分解成小任务,并分发给每个节点,每个节点并行处理这些任务,处理速度很快。实现:读取文件内容的时候对每一行解析成key-value的形

2016-05-26 00:09:42 2658

原创 回归 ---- 线性回归,多元回归与逻辑回归的关系

线性回归:线性回归假设特征和结果满足线性关系,每个特征都有一个参数,也就是它的影响力。而且每个特征变量可以首先映射到一个函数,然后再参与线性计算。这样就可以表达非线性关系。只有一个自变量的情况叫做简单回归, 多个自变量情况的叫做多元回归 简单回归:y= a + b*x多元回归:h(x)= θ0 + θ1*x1 + θ2*x2 + ...损失函数:j(θ), 对x(i)的估计

2016-05-25 10:54:14 10140

原创 解决sublime text3中文乱码问题

(1)Ctrl+`,输入以下代码import urllib.request,os; pf = 'Package Control.sublime-package'; ipp = sublime.installed_packages_path();urllib.request.install_opener( urllib.request.build_opener( urllib.request.

2016-05-24 11:54:09 482

原创 R语言 ---- 基础入门

(一)向量赋值:> x > x[1] 1 2 3 4 5> y <- c(x,6,7,8)> y[1] 1 2 3 4 5 6 7 8> x[3] # 求向量x第3个元素[1] 3> x[3] <- 7 # 修改x[3] > x[1] 1 2 7 4 5> mo

2016-05-23 22:08:03 1652

原创 分类算法(6) ---- 支持向量机(SVM)

有监督学习:根据已有的输入与输出,生成一个输入-输出的映射函数。迭代前有人为操控。无监督学习:直接对输入数据集进行建模。 半监督学习:综合利用有类标和没类标的数据,生成合适的分类函数。分类:分类器从已有的训练集中学习,之后可以对未知的数据集进行分类。(有监督)聚类:不需要对训练集进行学习,只需要计算相识度,把相似的东西分到一组,而不关心是哪一类。(无监督)SVM是支

2016-05-21 15:29:24 963

原创 关联规则挖掘 ---- Apriori算法与CBA算法

基本概念:通过数据的关联性进行分析挖掘,适合用于大数据样本中。项集:包含0个或多个项的集合。包含k个项就是一个k项集事务:表示事件   (比如每次去商场购买东西是一次事务,而实际购买到的东西就是项集)支持度:说明给定数据集的频繁程度,sup(x->y)表示x和y同时出现的概率置信度:说明推理的可靠程度,con(x->y)表示在x出现的情况下,出现y的概率

2016-05-19 21:17:42 4907 1

原创 聚类算法(2) ---- DBSCAN

引入圆,给定半径,与数据点阀值。核心点:以自身为圆心作圆,圆形包含的点数超过阈值的就是核心点边界点:以自身为圆心作圆,圆形包含的点数没有超过阈值,但是包含了核心点噪声点:以自身为圆心作圆,圆形包含的点数没有超过阈值,而且没有包含核心点算法流程:1、找到所有核心点2、找到所有边界点和噪声点3、将距离在给定半径下的核心点中间连一条线4、每组连通的核心点形成一个聚

2016-05-19 20:43:43 838

原创 聚类算法(1) ---- K-Means

K-Means不断地取离种子点最近均值,将数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算。算法流程:(1)初始化选择K个点作为K个聚类样本中心(2)迭代:计算每个样本点到中心点的距离,根据距离判断每个样本点所属类别;                    各聚类根据属于自己这一类的样本点的均值更新聚类中心(3)直到每个样本点所属类别不再变化

2016-05-19 20:31:55 1019

原创 分类算法(5) ---- 决策树(ID3,C4.5,CTAR)

决策树内部节点表示基于某个属性的分裂,分支表示不同的属性,叶节点表示最终的数据分布。训练过程:初始化所有数据分布在根节点上,然后这个根节点通过选择属性进行分裂。直到没有多余的可以分裂的属性,或每个叶节点的样本都是一个类别的。剪枝:去掉不合理的会导致噪声的分支。使用算法:通过自顶而下递归分治的做法,将数据样本进行划分一. ID3算法    分裂属性的选择:选择

2016-05-19 19:47:50 1188

原创 分类算法(4) ---- 逻辑回归(LR)

LR模型属于广义线性模型,将特征空间映射成一种可能性。损失函数:逻辑回归函数:算法流程:代码实现:   设置迭代次数为500次,每次迭代,对每个训练文本都更新一次w   预测的方法是:先将训练文本与w相乘得到z,再判断g(z)是否大于等于0.5(在PLA的代码基础上进行修改就可以得到LR)#include#define rate

2016-05-19 15:49:14 843

原创 分类算法(3) ---- 感知机(PLA)

感知机是二分类模型,输入实例的特征向量,输出实例的±类别。梯度下降法:首先,任意选定w0、b0,然后用梯度下降法不断极小化目标函数,极小化的过程不是一次性把M中的所有误分类点梯度下降,而是一次选取一个误分类点使其梯度下降。PLA算法流程设置迭代次数,每次迭代,从第一个点开始,每遇到一个误分类点,就更新w得到最后的w,与测试文本进行矩阵相乘进行预测,大于0为1,小

2016-05-19 15:37:33 2175

原创 分类算法(2) ---- 朴素贝叶斯算法(NB)

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。朴素贝叶斯分类器假设样本每个特征与其他特征都不相关。一. 基于离散变量     下面以一个简单的数据集为例,阐述基于NB的回归/预测模型:           上述三篇文本的词列表如下:         首先可以将上述两篇训练文本(train1和train2),以及一篇测试文本(test1

2016-05-19 14:28:50 1102

原创 分类算法(1) ---- K近邻算法(KNN)

KNN算法是分类算法中最简单的一种,原理:如果一个样本在特征空间中的k个最相似的样本中的大多数属于某一个类别,则该样本也属于这个类别。实现方法:从训练集中找到和新数据距离最近的k条记录,然后预测新数据的类别。实验题目:已知246篇训练文本对应的公众在anger (愤怒)、disgust (厌恶)、fear (害怕)、joy (高兴)、sad (悲伤)、surpris

2016-05-18 21:41:04 852

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除