第二部分数据挖掘知识与算法,向量,空间,回归

第二部分:主要为数据挖掘基础知识与算法、重点讲解多维向量空间、回归等
1、 向量:指具有大小和方向的几何对象,为了形象表示,把向量画成一个箭头,其向量可在计算机里面可以用数组实现。如一个企业的数据仓库中要描述一条销售信息,包括(’上海’,洗衣机’,’商城’,80000),其括号中的向量各个维度分别表示如下:(地区、产品类别、代理、销售额度),以上信息可以用python、java、sql3种语言进行。
Python写法
#PYTHON CODING
Class sales;
Zone=’’
Type=’’
Agency=’’
Sales_amount=0.00
Java写法
#java coding
Public class sales{
Public string zone;
Public string type;
Public string agency;
Public bigdecimal sales_amount;}
Sql写法
#sql coding
Create table sales(
Zone varchar(20) comment ‘地区’,)
Type varchar(50) comment ‘产品类别’,
Agency varchar(30) comment ‘代理’,
Sales_amount decimal(18,3) comment ‘销售额度’);
2、 回归:其实质为一种归纳的思想,当看到大量的事实所呈现的样态,推断出原因是如何的,当看到大量的数字对是某种样态,推断出它们之间的蕴含关系是如何的。因此,线性回归是利用数理统计学中的回归分析来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法:其表达式为:
Y=ax+b+e
其中,e为误差服从均值为0的正态分布。
简单说,通过统计或者实验,可能会得到两种值(两个系列的值)的对应关系,这两种值一种是y,一种是x,每组y和x是成对出现的一一对应,最后可以用一种
Y=ax+b+e的表达式来表示它们的关系。其中e不是一个定值,它和y,x对应着出现(有一对y和x,就有一个e),这个e的值满足正态分布。因此可用python编程,用线性回归的方法实现这个例子:
例题:将一个小铁球用一根线栓在一个很轻的小车上,小车后面拉着一根很长的有毫米刻度的纸袋,一个打点计时器一边电源接着220V50HZ的电,有一根圆珠笔尖悬在纸带上。
用python实现如下:
Import numpy as np
Import matplotlib.pyplot as plt
#原始数据
X=[1,2,3,4,5,6,7,8,9]
Y=[0.199,0.389,0.580,0.783,0.980,1.177,1.380,1.575,1.771]
A=np.vstack([x,np.ones(len(x))]).T
#A:
#[[1.1.]

[2.1.]

[3.1.]

[4.1.]

[5.1.]

[6.1.]

[7.1.]

[8.1.]

[9.1.]]

#调用最小二乘法函数
a,b=np.linalg.lstsq(A,y)[0]
#转换成numpy array
X=np.array(x)
Y=np.array(y)
#画图
Plt.plot(x,y,’0’,label=’original data’,markersize=10)
Plt.plot(x,a*x+b,’r’,label=’fitted line’)
Plt.show().
可得到下图:

图1
在这里插入图片描述
回归第三大部分介绍具体应用及高级扩展,包含关联分析、用户画像、推荐算法、文本挖掘、神经网络等相关的大数据框架及其安装,框架调优等,为相关专业人士提供实际的开发环境打下基础。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值