自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 资源 (1)
  • 收藏
  • 关注

原创 微软笔试-Numberic Keypad

题目描述The numberic keypad on your mobile phone looks like below:123456789 0 suppose you are holding your mobile phone with single hand. Your thumb points at digit 1. Each time you can 1)press the

2017-03-19 17:12:03 480

原创 Scikit-Learn 集成方法(Ensemble method) 学习

集成算法的目标是:组合几个基学习器的预测,以此来提高单个模型的泛化性和健壮性集成方法常分为两类:averging methods:平均法的原则是: 独立的构建几个学习器,然后平均他们的预测。通常,组合的学习器要比任何一个单个的学习器要好,因为它降低了方差。          其中的代表:bagging 方法,随即森林boosting methods:学习器依次构建,试图降低

2017-03-18 22:23:27 17069

原创 Scikit-Learn 支持向量机学习

1、支持向量机是一种有监督的学习方法,可以用来做分类、回归和离群点检测。2、支持向量机的优缺点:优点在高维空间是有效的当特征的维数比样本数量多的时候仍然有效在决策函数中仅使用支持向量,能够节省内存能够支持多种不同的核函数缺点当特征的数量远多于样本数量时,性能表现差SVMs 并不直接给出概率估计3、分类a. SVC,NuSVC,LinearSVC 能够进行

2017-03-17 21:48:23 828

原创 Kruskal 算法-Python版

好久没写了,有点遗忘记录一下kruskal 算法对所有的边排序依次选择每一条边,看是否能将边加入到已经生成好的树中若是能,则加入否则,继续步骤2,直至添加到树中的边的数量为节点数-1 的时候这里用了并查集的思路:设置一个记录每一个节点的父亲的数组,用于判断将边加进已生成树时是否会有环生成记录一个每一个节点有多少孩子节点的数组,用于节点的合并利用find()方法寻

2017-03-17 16:55:56 1232

原创 Python 生成全排列的两种方式

第一种方式:利用python的itertools模块的permutations()方法from itertools import permutationstry: while 1: s=sorted(raw_input()) l=permutations(s) for x in l: print ''.joi

2017-03-16 15:20:48 11425

原创 LR(逻辑回归) 为什么使用sigmoid函数

sigmoid 函数 上图为sigmoid函数的形式 选择sigmoid 的原因想从两方面来说: 1、 Sigmoid 函数自身的性质sigmoid 函数连续,单调递增sigmiod 函数关于(0,0.5) 中心对称对sigmoid函数求导 p=ex1+exp = \frac{e^x}{1+e^x} p′=p∗(1−p) p' = p*(1-p) 计算s

2017-03-15 18:05:45 18442 4

原创 在oj中Python的循环输入问题解决

在oj中Python的循环输入问题解决这几天做题被python的循环输入问题给烦死了,好好查了一下,记录在此。while True: t= sys.stdin.readline().strip() if len(t)==0: break t= int(t) nums=[int(i) for i in sys.st

2017-02-25 10:02:52 4482

原创 说说那些机器学习中的性能度量方式

说说那些机器学习中的性能度量方式主要分为两类问题 - * 分类问题 * - * 回归问题 *一、回归问题在回归问题中,最常用的性能度量方式是: 最小均方误差  1msumni=0(f(xi)−yi)2\ \frac{1}{m}sum_{i=0}^n(f(x_i)-y_i)^2 更一般的,对于数据集D 和概率密度p ,均方误差可以描述为:  1m∫i−D(f(x)−y)2p(x)\ \fr

2017-02-22 20:49:38 1823

原创 Python 二进制、整数相互转化

整数转二进制:1、采用%2的方式计算2、采用python自带了方法 bin.比如bin(10) 回返回字符串'0b1010' ,只留下‘0’,‘1’序列需要把‘0b’去掉.bin(number).replace('0b','') 或bin(number)[2:]>>> bin(10) // 为了下边表示方便 放入t中'0b1010'二进制转整数:>>> int(t[2:],2)

2016-10-21 16:04:49 23954

原创 PySpark-aggregate函数说明

聚集各分区内的元素,并利用combOp和zerovalue函数将各分区合并The functions op(t1, t2) is allowed to modify t1 and return it as its result value to avoid object allocation; however, it should not modify t2.函数 op(t

2016-10-08 15:58:18 4973 1

原创 LeetCode-best-time-to-buy-and-sell-stock

思路: 求最大差值  DP假设在当天将股票卖出,最大的收益将是在今天卖出之前股票最便宜的时候买进所以只需要维护在当前天之前的最小值即可,若是差值大于最大收益则更新最大收益;若是当前天价格低于最小值则更新最小值class Solution(object): def maxProfit(self, prices): """ :type prices:

2016-10-07 14:07:07 278

原创 Spark学习笔记-键值对操作

1、键值对RDD通常用来进行聚合操作。     Spark为包含键值对类型的RDD提供了一些专有的操作。这些RDD被称为pairRDD。pairRDD 提供了并行操作各个键或跨节点重新进行数据分组的操作接口。          例如: reduceByKey()方法,可以分别规约每个键对应的数据;join()方法,可以把两个RDD中键相同的元素组合到一起,合并为一个RDD。2、

2016-09-08 22:59:15 1461

原创 Spark学习笔记--Spark基础知识

1、RDD表示分布在多个计算节点上的可以并行操作的元素集合,是spark主要的变成抽象。Spark Streaming 是 Spark 提供的对实时数据进行流式计算的组件Spark是一个用于集群计算的通用计算框架,因此被应用于各种各样的应用程序2、从上层来看,每个saprk应用都有一个驱动器程序(driver programmer)来发起集群上的各种并行操作。驱动器程序通过

2016-09-08 22:57:56 4251

原创 Spark 2.0 Programming Guide 翻译(PySpark)

最近在看Spark,感觉一直找不到头绪,就试着根据自己的理解把Spark的Programming Guide 翻译了,其中肯定会有诸多不合适和理解不到位的地方,权当自己的笔记好了。1、spark2.0 工作依靠python2.6+或python3.4+ ,他可以使用标准的cpython解释器,所以说C libraries 例如numpy可以使用,它工作依靠pypy2.3+

2016-08-27 23:36:07 1083

原创 MySQL 插入时间

若是要求插入的时间 ,既带有年月日 又有时分秒则需要MySQL 的属性的类型设置为DATETIME 类型语句 : insert into table values('2010-01-28 16:22:51')  一定要注意时间两边的引号

2016-01-28 11:14:49 1517

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除