关闭

eclipse Maven配置与实例

注:本文来自几篇博客的整合,是我结合自己使用过程中出现的问题重新整理了一下。 参考博客(图片均来自下面博客): eclipse Maven配置 eclipse修改maven的本地仓库位置 Eclipse使用Maven时出现:Index downloads are disabled, search results may be incomplete.问题解决 eclipse m...
阅读(13) 评论(0)

python问题:ValueError: operands could not be broadcast together with shapes (100,3) (3,1)

原文链接:http://www.mamicode.com/info-detail-1072145.html 背景:dataMatrix是(100,3)的列表,labelMat是(1,100)的列表,weights是(3,1)的数组,属性如下代码所示: >>> import types >>> type(dataMatrix) >>> type(labelMat) >>>...
阅读(32) 评论(0)

代码覆盖度工具OpenCppCoverage(cpp)、EclEmma(java)、Coverage(python)使用

一、OpenCppCoverage(cpp)OpenCppCoverage是一个运行在windows上的程序,其不是在编译时进行插桩,而是在运行时,因此保证了代码和测试的一致性。 参考文档:https://github.com/OpenCppCoverage/OpenCppCoverage1、命令行方式(1)下载和安装下载地址:https://github.com/OpenCppCoverage/...
阅读(86) 评论(0)

Paper:Learning from Imbalanced Data

论文链接:Learning from Imbalanced Data 一、基本概念 1、类间不平衡 VS. 类内不平衡 类间不平衡:不同类别之间的数据量相差较大。 类内不平衡:某一个类分布成多个小聚类,每个小聚类数据量相差较大。 如下图: 图(a)中圆形和五角星代表2个不同的类,他们的数目量相差较大,因此属于类间不平衡。 图(b)中:A代表圆形类中数量较大的圆形集合,D代表圆形类...
阅读(142) 评论(0)

转自美团技术:机器学习中的数据清洗与特征处理综述&实例详解机器学习如何解决问题

机器学习中的数据清洗与特征处理综述 背景 随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘,不仅能给美团业务发展方向提供决策支持,也为业务的迭代指明了方向。目前在美团的团购系统中大量地应用到了机器学习和数据挖掘技术,例如个性化推荐、筛选排序、搜索排序、用户建模等等,为公司创造了巨大的价值。 本...
阅读(257) 评论(0)

win下Eclipse远程连接Hbase的配置及程序示例(create、insert、get、delete)

写在前面 Ubuntu版本: Ubuntu16.04 Hadoop版本: Hadoop-2.7.3 HBase版本: HBase-1.3.1 zookeeper版本: zookeeper-3.4.9 一、配置 1、新建Java项目 依次点击: File --> New --> Other --> Java Project --> 输入项目名称(这里是HBaseBasic)。...
阅读(306) 评论(2)

Gnuplot:双折线图、双柱状图模板

一、下载 下载地址:https://sourceforge.net/projects/gnuplot/files/gnuplot/ 我下载的版本:gp504-win64-mingw.exe 直接安装即可,没什么需要注意的。 二、画图说明 在画图时,需要一个数据文件(在本篇文章中以.dat结尾的文件),一个plot文件(在本篇文章中以.plt结尾的文件),这2个文件需要放在同一目录下,...
阅读(183) 评论(0)

Win下使用Eclipse开发scala程序配置(基于Hadoop2.7.3集群)

写在前面本篇博客讲的是已经在Ubuntu配置好环境,并且scala功能可以正常使用的情况下,在windows下使用eclipse开发scala程序的配置。 Ubuntu下各软件的版本: Hadoop集群: hadoop-2.7.3 Hive版本: hive-2.1.1 Spark版本: spark-2.1.0-hadoop2.7 Scala版本: scala-2.12.2 关于集群的配置...
阅读(254) 评论(0)

Scala-2.12.2和Spark-2.1.0安装配置(基于Hadoop2.7.3集群)

Hadoop集群环境安装配置详见: Hadoop完全分布式集群安装及配置(基于虚拟机) Ubuntu镜像版本: ubuntu-16.04.2-server-amd64.iso JDK版本: jdk1.8 Hadoop版本: hadoop-2.7.3已安装的Hadoop集群中主机名和对应的IP如下: 主机名 IP hadoop2m(master) 192.168.163.13...
阅读(267) 评论(0)

MultipleOutputs实战:结果输出到多个文件夹或者文件中

转载链接: http://blog.csdn.NET/garychenqin/article/details/48339327(在原文基础上增加了代码分析、执行和结果) 1、原理技术 输出到多个文件或多个文件夹,驱动中不需要额外改变,只需要在MapClass或Reduce类中加入如下代码: private MultipleOutputs mos; public void setup(...
阅读(202) 评论(0)

Hadoop中自定义Partitioner,但是不同的key仍然在一个输出文件中

问题描述: 在自定义Partitioner的时候,想要实现一个简单的功能:将对应的key为“short”、“right”和“long”的分别存储在3个文件中。因为默认是存储在一个文件中,所以需要自定义Partitioner。 在实现功能的时候,想要通过判断key的值来决定result,代码如下: public int getPartition(Text key, Text val...
阅读(136) 评论(0)

Hive:使用beeline连接和在eclispe中连接

在mysql5.7.18安装、Hive2.1.1安装和配置(基于Hadoop2.7.3集群)中,已经讲到了mysql和hive的安装和配置。本篇博客第一部分讲的是使用beeline连接hive的方法,第二部分讲的是在eclipse中远程连接hive。准备工作1、启动hadoop服务 2、启动mysql服务使用beeline连接1、启动hiveserver2服务在根目录下, 使用下面的命令启动hiv...
阅读(171) 评论(0)

Hive启动提示端口10000被占用:SelectChannelConnector@0.0.0.0:10000: java.net.BindException

问题描述: 在使用hive --service hiveserver2启动hiveserver2服务的时候,提示SelectChannelConnector@0.0.0.0:10000: java.net.BindException。 问题原因: 在之前已经使用这个命令启动过一次,但是由于没有启动成功,我直接用Ctrl+Z把进程终止了,再次启动,所以会提示端口被占用的情况。 解决方案: 使...
阅读(184) 评论(0)

hiveserver2启动:javax.jdo.JDODataStoreException: Error executing SQL query "select "DB_ID" from "DBS""

原文链接:http://www.cnblogs.com/zwgblog/p/6063993.html 启动hive-metastore和hive-server2 用beeline连接hive报错 1 2 3 4 5 6 7 8 [root@node04 hive]# beeline Bee...
阅读(613) 评论(0)

Hadoop完全分布式在实际中优化方案

步骤 优化方案 配置hosts文件 用DNS代替hosts文件,可使用bind工具 建立hadoop运行账号 centered 配置ssh免密码连入 利用NFS实现秘钥共享 下载并解压hadoop安装包 配置namenode,修改site文件 配置hadoop-env.sh 配置masters和slaves文件 只需要在maste...
阅读(91) 评论(0)
200条 共14页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:220462次
    • 积分:3871
    • 等级:
    • 排名:第8572名
    • 原创:158篇
    • 转载:42篇
    • 译文:0篇
    • 评论:48条
    最新评论