自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 【学习笔记】特征工程(1)

构建特征(转换) 原始数据的变量本身就是一个特征,有时会对其中部分变量进行一些转换,这样做可能会提高模型的稳定性和准确率。常见的特征构建(转换)方式有:标准化x'=(x-μ)/σ,即原始数值减去均值除以标差,对原始变量进行了对中和归一,去掉幅度的影响归一化x'=(x-MinValue)/(MaxValue-MinValue),实现将原始变

2017-06-23 14:49:23 614

原创 md5`加密2:udf简单实现

首先编写udf的java文件除了导入hadoop里面的jar包之外(hadoop/share/hadoop/   : common 以及common里的lib ,mapreduce 以及mapredure 里面的lib; yarn 以及yarn里面的lib)还需要导入hive里面的lib所有jar包接下来是java主体部分,是把之前java上实现的拿来改一些地方:packa

2017-06-20 17:01:56 1157

原创 我装hive的记录

需要事先安装好hadoop,mysql进入mysql以后设置一下:createdatabase hive;createuser 'hive'@'%' identified by '密码';grantall on *.* to hive@'%' identified by '密码';flushprivileges;接下来只剩下修改hive的配置,主要修改h

2017-06-20 12:48:42 330

原创 【微信小编】关联规则图

今天终于知道以前看到的关联规则图是怎么画出来的了。效果图如下:setwd("D://test//")testdt<-read.csv("test.csv",header = TRUE,sep="\t")head(testdt)trans5<- as(split(testdt[,"disease_tp"], testdt[,"zjhm"]), "transactions

2017-06-15 17:28:49 2422 3

转载 md5`加密1:java简单实现

package md5testatest;import java.io.UnsupportedEncodingException;import java.security.MessageDigest;import java.security.NoSuchAlgorithmException;import sun.misc.BASE64Encoder;public class Md5t

2017-06-13 09:38:12 428

原创 py3 爬虫设置user-agent

爬网页的时候,明明网址是正确的,但是用python爬网页返回 not fount 404错误网上查了结果是需要设置 user-agent# -*- coding:utf-8 -*-import urllib.requestimport re# install proxy# url ="http://www.cnblogs.com/GuoYaxiang/p/6232831.html

2017-06-12 17:11:08 1034 1

原创 线性相关系数

问题是这样开始的:在处理数据时,无意中发现年龄和费用的均值呈现了过分好的线性相关性如下图所展示的:用肉眼就可以看出他们线性相关性很大经过计算,皮尔逊相关系数达到0.983。年龄和费用均值之间的线性相关性居然有那么高么?根据经验,规律好得不可思议,肯定有问题。。。 尝试考察下这个正相关系数的可靠性:用的单变量线性回归

2017-06-09 14:27:19 7098

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除