- 博客(11)
- 资源 (19)
- 收藏
- 关注
转载 利用scikit-learn实现数据归一化
本文主要介绍scikit-learn中的数据预处理之归一化。Demo 1import numpy as npfrom sklearn import preprocessing# 定义arraya = np.array([-10, 2.3, 13.7, 56, 108])print a# 对array进行归一化(normalization)# scale进行的操作是按列减去均值, ...
2018-02-28 22:43:20 10882 1
转载 利用sklearn实现k近邻法算法
简介:近邻法(,)是一种基本分类与回归方法,它的原理是,对给定的训练数据集,对新的输入实例,在训练数据集中找到与该实例最近邻的个实例,依据“少数服从多数”的原则,根据这个实例中占多数的类,就把该实例分为这个类。从上面简介可以看出,算法实际上是利用训练数据集对特征空间进行划分。在分类方法中,值的选择、实例之间距离的度量及分类决策规则是近邻法的三个基本要素 。近邻算法计算过程:设有训练数据集...
2018-02-28 09:51:58 4744
转载 利用sklearn实现感知机(perceptron)算法
一、感知机(perceptron)感知机简介:感知机(perceptron)是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别。感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面。感知机是一种线性分类模型。感知机实际上表示为输入空间到输出空间的映射函数,如下所示: 其中,和称为感知机的模型参数,叫做权值(weight)或权值向量(weight v...
2018-02-28 09:47:38 15649 5
原创 机器学习-经验风险、期望风险、结构风险
要区分这三个概念,需要先讲一下损失函数L(Y,f(x))的概念。损失函数:针对单个具体样本,表示模型预测值与真实样本值之间的差距。损失函数越小,说明模型对于该样本预测越准确。常见损失函数有0-1损失函数、平方损失函数、绝对损失函数、对数损失函数(对数似然损失函数)。经验风险:对所有训练样本都求一次损失函数,再累加求平均。即,模型f(x)对训练样本中所有样本的预测能力。 所谓经验风险最小化即...
2018-02-26 15:51:26 2321
转载 推荐系统实践(项亮)读书笔记
随着信息技术和互联网的发展,人们逐渐从信息匮乏的时代走入了信息过载的时代。在这个时代,无论是信息消费者还是信息生产者都遇到很大的挑战;对于消费者,从大量信息中找到自己感兴趣的信息是一件非常困难的事情;对于信息生产者,让自己的信息脱颖而出,受到广大用户的关注,也是一件非常困难的事情。推荐系统就是解决这一矛盾的重要工具。推荐系统的任务就是联系用户和信息,一方面帮助用户发现对自己有价值的信息,另一方...
2018-02-23 15:07:19 1865
转载 好友推荐算法
社交网络中,好友推荐随处可见,这里探讨好友推荐是如何做的。1、三元闭包理论 说到好友推荐,就不得不谈三元闭包理论。 三元闭包定义:在一个社交圈内,若两个人有一个共同好友,则这两个人在未来成为好友的可能性就会提高。 举例说明,若B、C有一个共同好友A,且B、C不认识,则B、C成为好友的几率会增加 这个理论直观自然,可以从机会、信任、动机上来解释: 1、B、C是A的朋友,那么B、C见面的机会会增加,如...
2018-02-23 14:37:38 8024
原创 python多进程编写
第一种:使用fork创建多进程(windows没有fork调用) 要让Python程序实现多进程(multiprocessing),我们先了解操作系统的相关知识。Unix/Linux操作系统提供了一个fork()系统调用,它非常特殊。普通的函数调用,调用一次,返回一次,但是fork()调用一次,返回两次,因为操作系统自动把当前进程(称为父进程)复制了一份(称为子进程),然后,分别在父进
2018-02-03 21:28:57 852
原创 线程、进程哪个好?
我们介绍了多进程和多线程,这是实现多任务最常用的两种方式。现在,我们来讨论一下这两种方式的优缺点。首先,要实现多任务,通常我们会设计Master-Worker模式,Master负责分配任务,Worker负责执行任务,因此,多任务环境下,通常是一个Master,多个Worker。如果用多进程实现Master-Worker,主进程就是Master,其他进程就是Worker。如果用多线程实现
2018-02-02 16:51:38 825
原创 python线程编写-ThreadLocal如何处理变量
在多线程环境下,每个线程都有自己的数据。一个线程使用自己的局部变量比使用全局变量好,因为局部变量只有线程自己能看见,不会影响其他线程,而全局变量的修改必须加锁。但是局部变量也有问题,就是在函数调用的时候,传递起来很麻烦:def process_student(name): std = Student(name) # std是局部变量,但是每个函数都要用它,因此必须传进去
2018-02-02 16:46:50 1838 2
原创 python多线程编写
多任务可以由多进程完成,也可以由一个进程内的多线程完成。进程是由若干线程组成的,一个进程至少有一个线程。由于线程是操作系统直接支持的执行单元,因此,高级语言通常都内置多线程的支持,Python也不例外,并且,Python的线程是真正的Posix Thread,而不是模拟出来的线程。 Python的标准库提供了两个模块:thread和threading,thread是低级模块,
2018-02-02 16:20:07 685
原创 python 语言中with as 的用法
With语句是什么? 有一些任务,可能事先需要设置,事后做清理工作。对于这种场景,Python的with语句提供了一种非常方便的处理方式。一个很好的例子是文件处理,你需要获取一个文件句柄,从文件中读取数据,然后关闭文件句柄。如果不用with语句,代码如下:file = open("/tmp/foo.txt")data = file.read()file.close()
2018-02-01 10:10:00 674
Mushroom Classification--xgboost训练数据
2018-03-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人