自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

amenhub

故事你真的在听吗

  • 博客(6)
  • 收藏
  • 关注

转载 windows下使用eclipse操作虚拟机中hdfs上的文件时报错:java.io.IOException: No FileSystem for scheme: hdfs

错误:java.io.IOException: No FileSystem for scheme: hdfs解决办法:确保所有的jar包都添加到了项目中,尤其是hadoop/share/hadoop/common/hdfs中的jar包;在项目的pom.xml文件中,添加如下依赖: <dependency> <groupId>org.apache.ha...

2019-04-16 17:18:25 407

原创 总结:编写Hive UDF自定义函数(通过IP地址查询所属省份地市和运营商)

文件记录字段包括:起始IP(Start_ip),结束IP(End_ip),运营商(IDC),省份(Province),地市(City)1. 将输入的点分十进制IP地址转换成长数字类型IP地址是一个32位的二进制数,将它划分为4个字节,每个字节是8位,因此每个字节所能表示的最大数字是2^8=255(从0开始)public static long ip2long(String ip) { if...

2019-04-11 19:30:21 2871

翻译 常用的降维方法

什么是降维?大数据时代,随着数据的喷涌式生成以及数据收集量的不断增加,可视化数据变得越来越困难,提取关键信息的难度也在不断上升。而通过把高维的数据转变为低维数据,使其能够通过可视化工具直观的展示或者变成易处理的模型特征的过程叫作降维。举个例子,描述一个人的各项特征里包括身高体重,在我们想要解释这个人的身体状况或者体质时,就可以通过身高体重来计算得到这个人的体质指数,那么二维的身高体重转换成...

2018-09-17 15:19:10 7235

原创 使用scikit-learn进行初步的数据预处理

对于机器学习来说,sklearn具有非常丰富且方便的算法模型库,现在我们将使用sklearn中的preprocessing库来对数据进行初步的预处理。1.Z-Score标准化(尽量使均值为0,方差为1)标准化即将数据按比例进行缩放,使其落入一个限定的区间。特点是使得不同量纲之间的特征具有可比性,同时不改变原始数据的分布。属于无量纲化处理。公式需要计算特征的均值和标准差,使用sk...

2018-09-15 13:46:12 815

原创 Linux系统:selenium.common.exceptions.WebDriverException: Message: chrome not reachable

1.运行环境及版本python: Python3.6.5 | Anacondaselenium: 3.14.0chrome: 68.0.3440.84chromedriver: 2.412.问题描述 测试selenium时输入如下代码: &amp;gt;&amp;gt;&amp;gt; from selenium import webdriver...

2018-09-01 17:25:16 6622 1

原创 Hash函数及HashMap的简单介绍

本篇文章将围绕以下几个问题进行学习:一、散列函数散列函数的概念散列函数常见的几种构造方法二、哈希冲突哈希冲突的概念哈希冲突的常见解决办法三、HashMapHashMap的简单介绍HashMap的几个特点HashMap的两个关键因子HashMap查找的时间复杂度分析四、问题小结HashMap中哈希函数的实现方式是什么?为...

2018-08-21 12:41:43 864

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除