自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

mori66

小白学习大数据计算,机器学习/数据挖掘。

  • 博客(32)
  • 收藏
  • 关注

转载 GBDT算法原理及调参实现

算法原理:http://www.jianshu.com/p/005a4e6ac775http://www.cnblogs.com/pinard/p/6140514.htmlhttp://blog.csdn.net/suranxu007/article/details/49910323调参:http://www.cnbl

2017-09-18 16:12:35 1559 1

原创 特征选择常用算法综述

http://www.cnblogs.com/heaad/archive/2011/01/02/1924088.html

2017-09-11 17:03:39 347

转载 随机梯度下降法

文章请看:http://blog.csdn.net/zbc1090549839/article/details/38149561

2017-09-11 14:32:15 411

原创 python 时间差的计算

import timeimport datetimestart = datetime.datetime.now()time.sleep(30)end = datetime.datetime.now()print (end-start).days # 0 天数print (end-start).total_seconds() # 30.029522 精确秒数print (end-s

2017-07-27 19:35:23 14958

转载 hive大数据倾斜总结

转载地址来源:http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842860.html

2017-07-19 11:41:39 303

转载 Hive: SemanticException Error in parsing

逗号导致hive报“SemanticException Error in parsing”错误http://www.mamicode.com/info-detail-222137.html

2017-05-22 14:27:45 2368

原创 百度2016校招:钓鱼比赛 Python

题目描述:ss请cc来家里钓鱼,鱼塘可划分为n*m的格子,每个格子有不同的概率钓上鱼,cc一直在坐标(x,y)的格子钓鱼,而ss每分钟随机钓一个格子。问t分钟后他们谁至少钓到一条鱼的概率大?为多少?输入描述: 第一行五个整数n,m,x,y,t(1≤n,m,t≤1000,1≤x≤n,1≤y≤m); 接下来为一个n*m的矩阵,每行m个一位小数,共n行,第i行第j个数代表坐标为(i,

2017-05-19 16:10:35 348

原创 基于随机采样获取训练、测试数据示例(Python)

import randomnPoints = 1000#随机获取x列表的数据xPlot = [(float(i)/float(nPoints) - 0.5) for i in range(nPoints + 1)]x = [[s] for s in xPlot]#运行一个随机种子random.seed(1)#在x的基础上进行数据的随机获取,每个数据在0.1范围内随机波动y = [s

2017-05-18 17:29:01 3049

转载 Hive学习之抽样(Sampling)

参考如下链接:http://blog.csdn.net/skywalker_only/article/details/39370511

2017-05-16 17:44:14 291

转载 GBDT和XGBOOST的区别

机器学习算法中GBDT和XGBOOST的区别https://www.zhihu.com/question/41354392

2017-05-16 17:19:12 380

转载 算法原理详细讲解

Auton Lab 实验室的相关讲解https://www.autonlab.org/tutorials

2017-05-16 15:44:52 630

转载 机器学习之特征工程

特征工程的相关讲解说明:http://www.cnblogs.com/jasonfreak/p/5448385.html

2017-05-16 14:47:35 289

转载 GBDT和随机森林的区别

参考学习如下文章:http://blog.csdn.net/keepreder/article/details/47272779

2017-05-16 14:18:52 413

原创 数据标准化处理

1. Std标准化处理xMeans = []xSD = []for i in range(ncols): col = [xList[j][i] for j in range(nrows)] mean = sum(col)/nrows xMeans.append(mean) colDiff = [(xList[j][i] - mean) for j in ra

2017-05-15 14:59:28 442

转载 机器学习正则化相关讲解

讲解了三个范数以及范数在机器学习中的作用jhttp://blog.csdn.net/zouxy09/article/details/24971995

2017-05-12 16:00:05 405

原创 KNN算法示例

# -*- coding: UTF-8 -*-import mathimport csvimport randomimport operator'''@author:hunter@time:2017.03.31'''class KNearestNeighbor(object): def __init__(self): pass def loa

2017-04-13 22:28:31 1705

原创 拉格朗日插值方法示例

from scipy.interpolate import lagrange #导入拉格朗日插值函数#自定义列向量插值函数#s为列向量,n为被插值的位置,k为取前后的数据个数,默认为5def ployinterp_column(s, n, k=5): y = s[list(range(n-k, n)) + list(range(n+1, n+1+k))] #取数 y = y[y.no

2017-04-11 19:32:51 1566 1

原创 Hive分组统计前top N条记录

参考这篇博客而写:http://blog.csdn.net/longshenlmj/article/details/50525385本 Hive 语句的目的是统计中国每个省份下所有城市记录出现总次数为前5的结果。hive -e "select bb.* from (select country_name, province_name, city_name

2017-01-22 18:45:04 7673

原创 解决Python查询Mysql数据库信息乱码问题

今天尝试着用 Python 写了个脚本试着连接 mysql 数据库,并查询里边的数据,不过最终查询结果中文字符变成了ascii格式。代码如下:#!/usr/bin/python#encoding=utf-8import MySQLdbimport jsondb = MySQLdb.connect(host='xxx.xxx.xx.xxx',port=3306,user='nam

2017-01-22 16:47:17 4377

转载 二分查找

算法原理:二分查找又称折半查找,首先,假设表中元素是按升序排列,将表中间位置记录的关键字与查找关键字比较,如果两者相等,则查找成功;否则利用中间位置记录将表分成前、后两个子表,如果中间位置记录的关键字大于查找关键字,则进一步查找前一子表,否则进一步查找后一子表。重复以上过程,直到找到满足条件的记录,使查找成功,或直到子表不存在为止,此时查找不成功。算法要求:1.必须采用顺序存储结构;2.必

2016-12-28 11:17:01 349

转载 Python性能优化的20条建议

1. 优化算法时间复杂度算法的时间复杂度对程序的执行效率影响最大,在Python中可以通过选择合适的数据结构来优化时间复杂度,如list和set查找某一个元素的时间复杂度分别是O(n)和O(1)。不同的场景有不同的优化方式,总得来说,一般有分治,分支界限,贪心,动态规划等思想。2. 减少冗余数据如用上三角或下三角的方式去保存一个大

2016-12-22 16:42:03 188

转载 Python常见文件操作的函数示例

os.path 模块中的路径名访问函数分隔basename() 去掉目录路径, 返回文件名dirname() 去掉文件名, 返回目录路径join() 将分离的各部分组合成一个路径名split() 返回(dirname(), basename()) 元组splitdrive() 返回(drivename, pathname) 元组splitex

2016-12-21 18:26:09 187

原创 linux shell 指令 诸如-d, -f, -e之类的判断表达式

文件比较运算符-e filename  如果 filename存在,则为真  [ -e /var/log/syslog ]-d filename  如果 filename为目录,则为真  [ -d /tmp/mydir ]-f filename  如果 filename为常规文件,则为真  [ -f /usr/bin/grep ]-L filename  如果 filename为符

2016-12-21 18:11:25 241

原创 编写Python程序时10个常见的错误

Python是一门解释性的,面向对象的,并具有动态语义的高级编程语言。它高级的内置数据结构,结合其动态类型和动态绑定的特性,使得它在快速应用程序开发(Rapid Application Development)中颇为受欢迎,同时Python还能作为脚本语言或者胶水语言讲现成的组件或者服务结合起来。Python支持模块(modules)和包(packages),所以也鼓励程序的模块化以及代码重用。

2016-12-21 18:09:54 1426

原创 Python 文件读写操作实例详解

一、python中对文件、文件夹操作时经常用到的os模块和shutil模块常用方法。1.得到当前工作目录,即当前Python脚本工作的目录路径: os.getcwd()2.返回指定目录下的所有文件和目录名:os.listdir()3.函数用来删除一个文件:os.remove()4.删除多个目录:os.removedirs(r"c:\python")5.检验给出的路径是否是一个文

2016-12-21 18:08:45 526

原创 PYthon os.path 访问函数

os.path 模块中的路径名访问函数分隔basename() 去掉目录路径, 返回文件名dirname() 去掉文件名, 返回目录路径join() 将分离的各部分组合成一个路径名split() 返回(dirname(), basename()) 元组splitdrive() 返回(drivename, pathname) 元组splitex

2016-12-21 18:07:41 254

原创 Python中OS模块使用说明

os.getcwd() 获取当前工作目录,即当前python脚本工作的目录路径 os.chdir("dirname") 改变当前脚本工作目录;相当于shell下cdos.curdir 返回当前目录: ('.')?1os.pardir 获取当前目录的父目录字符串名:('..')os.makedirs('dirname1/dirname2') 可生成多层递归目录os.rem

2016-12-21 18:05:54 1005

原创 python中map和reduce的应用

map和reduce在那篇经典的论文 《MapReduce: Simplified Data Processing on Large Clusters》中这么定义MapReduce is a programming model and an associated implementation for processing and generating large data sets.

2016-12-21 18:04:36 396

原创 hive QL优化系列之一

优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 对分区插入数据(每次都会覆盖掉原来的数据):hive.map.aggr=trueMap 端部分聚合,相当于Combinerhive.groupby.skewindata=true

2016-12-21 18:01:41 566

原创 hive 配置参数说明大全

hive 运行优化参数配置

2016-12-21 18:00:44 1777

转载 python常用模块大全

本篇文章列举了python中常用的模块以及目录

2016-12-21 17:46:18 1678

原创 knn算法学习笔记

主要介绍了knn的实现过程,包括归一化处理,中间数值计算中涉及到的矩阵操作。

2016-11-08 13:56:13 245

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除