2017年06月_来一块提拉米苏

12月 10月 09月 08月 07月 06月 05月 03月 02月 01月

原创简单的线性回归

说到线性回归，都不陌生就不多讲了如图所示，这条线如何求出的，线的方程式为根据这两个公式求出方程带入即可展示一下用Python的简单应用： # coding=utf-8 import numpy as np#numpy中有自带的求均值mean def fit(x, y): up = 0 down = 0; n = len(x)

2017-06-17 20:59:11 459

原创支持向量机（一）

svm学习（1）支持向量机（Support Vector Machine），简称svm，属于监督学习模型，可以分析数据，识别模式，用于分类和回归分析。线性可分：支持向量机用于最大间隔的分割数据，这体现了对于分类的新方法，相对于knn更有效，更准确的将一个未知的点分到正确的地方。但是也面临着一些问题，首先svm处理的数据是线性可分的，就是可以通过一条线来划分界限，而svm就是来求这条分界

2017-06-16 20:53:53 588

原创 Python随机数

随机种子 random.seed(num) num为空时为真随机，num为一个固定数时是固定的随机普通随机 import random x = random.random() print x 固定范围整数随机-->半开区间 [low, high)。 import numpy as np np.random.randint(end)默认范围0-end np.rando

2017-06-15 18:09:52 393

原创决策树

一、决策树/判断树（decision tree） 1、概念：决策树是一个类似于流程图的树结构:其中，每个内部节点表示在一个属性上的测试，每个分支表一个属性输出，而每个树叶节点代表类或类分布。树的最顶层是根结点。 2、熵： H(X)=-（p1*logp1+p2*logp2+...+pn*logpn） 3、算法：信息获取量：Gain(A) = info(D)-infor_A(D)

2017-06-14 15:35:25 535

原创 KNN-临近算法

邻近算法，或者说K最近邻(KNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。 KNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个

2017-06-14 15:33:40 413

原创 transform的使用

from sklearn.feature_extraction import DictVectorizer DictVectorizer和fit_transform的使用： v = DictVectorizer（sparse = False）#空白处为false D = [{ 'F' : 'A' , 'B' : 'B' },{ 'F' : 'C' , 'B' : 'A' }

2017-06-08 20:33:09 1401

原创 python中的csv模块

最近学习机器学习遇到了csv这个包，怎么用呢，这成了一个疑问，从网上查了一下，简单的总结一下。什么是csv？ csv文件格式是一种通用的电子表格和数据库导入导出格式。可以用来处理从csv文件中读入，读出一系列的数值或字典。 csv的基本应用：先来做一个比较吧 1、 with open('C:\Users\l\Desktop\p.csv','r+') as fp: pri

2017-06-05 20:09:41 827

用于tpc-h测试的工具

tpch工具，进行tpc-h的测试工具

2021-11-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人