- 博客(7)
- 收藏
- 关注
原创 【学习笔记】特征工程(1)
构建特征(转换) 原始数据的变量本身就是一个特征,有时会对其中部分变量进行一些转换,这样做可能会提高模型的稳定性和准确率。常见的特征构建(转换)方式有:标准化x'=(x-μ)/σ,即原始数值减去均值除以标差,对原始变量进行了对中和归一,去掉幅度的影响归一化x'=(x-MinValue)/(MaxValue-MinValue),实现将原始变
2017-06-23 14:49:23 614
原创 md5`加密2:udf简单实现
首先编写udf的java文件除了导入hadoop里面的jar包之外(hadoop/share/hadoop/ : common 以及common里的lib ,mapreduce 以及mapredure 里面的lib; yarn 以及yarn里面的lib)还需要导入hive里面的lib所有jar包接下来是java主体部分,是把之前java上实现的拿来改一些地方:packa
2017-06-20 17:01:56 1157
原创 我装hive的记录
需要事先安装好hadoop,mysql进入mysql以后设置一下:createdatabase hive;createuser 'hive'@'%' identified by '密码';grantall on *.* to hive@'%' identified by '密码';flushprivileges;接下来只剩下修改hive的配置,主要修改h
2017-06-20 12:48:42 330
原创 【微信小编】关联规则图
今天终于知道以前看到的关联规则图是怎么画出来的了。效果图如下:setwd("D://test//")testdt<-read.csv("test.csv",header = TRUE,sep="\t")head(testdt)trans5<- as(split(testdt[,"disease_tp"], testdt[,"zjhm"]), "transactions
2017-06-15 17:28:49 2422 3
转载 md5`加密1:java简单实现
package md5testatest;import java.io.UnsupportedEncodingException;import java.security.MessageDigest;import java.security.NoSuchAlgorithmException;import sun.misc.BASE64Encoder;public class Md5t
2017-06-13 09:38:12 428
原创 py3 爬虫设置user-agent
爬网页的时候,明明网址是正确的,但是用python爬网页返回 not fount 404错误网上查了结果是需要设置 user-agent# -*- coding:utf-8 -*-import urllib.requestimport re# install proxy# url ="http://www.cnblogs.com/GuoYaxiang/p/6232831.html
2017-06-12 17:11:08 1034 1
原创 线性相关系数
问题是这样开始的:在处理数据时,无意中发现年龄和费用的均值呈现了过分好的线性相关性如下图所展示的:用肉眼就可以看出他们线性相关性很大经过计算,皮尔逊相关系数达到0.983。年龄和费用均值之间的线性相关性居然有那么高么?根据经验,规律好得不可思议,肯定有问题。。。 尝试考察下这个正相关系数的可靠性:用的单变量线性回归
2017-06-09 14:27:19 7098
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人