Hive安装

Hive安装过程中坑比较多,这里只说Hive的安装步骤, Hive安装过程: 系统环境是:Centos7 1、下载apache-hive-1.2.2-bin.tar.gz: 地址http://www.eu.apache.org/dist/hive/hive-1.2.2/apache-hiv...

2018-09-03 16:43:12

阅读数 67

评论数 0

Hive安装过程中的坑

Hive安装过程的坑比较多,我这里总结了我安装过程碰到的问题 系统环境:Centos7 1、mysql安装的问题 1)在安装mysql之前查看是收安装过mysql 命令:yum list installed mysql* 如有一下列表说明系统中有Mysql了: 2)卸载以上列表内容...

2018-09-03 16:40:24

阅读数 383

评论数 0

spark安装

1、集群环境 Master:192.168.111.140 Slave1:192.168.111.141 Slave2:192.168.111.142 2、下载软件包 Master 这里文件时下载在/usr/local/src目录下的: 1)下载spark的压缩包,这里的压缩包需要和...

2018-08-16 09:51:05

阅读数 522

评论数 0

分类预测:混淆矩阵、PR曲线、ROC曲线、AUC

混淆矩阵:混淆矩阵也称误差矩阵,是表示精度评价的一种标准个格式。混淆矩阵是通过将每个实测像元的位置和分类图像中的相应位置和分类比较计算的。 混淆矩阵的每一行代表预测类别,每一列的总数测为该类别的数据的数目;每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目...

2018-08-02 13:10:40

阅读数 657

评论数 0

分类算法:朴素贝叶斯(NBC)

朴素贝叶斯是基于贝叶斯定义与独立同分布假设的分类算法 朴素贝叶斯公式: 推到过程: 1、条件概率: 2、联合概率: 3,、P(X,Y)的联合概率等于P(Y,X)的联合概率,即: 4、P(Y,X)的联合概率: 把P(Y,X)的联合公式代入1中的P(X,Y)的条件概率...

2018-08-01 22:58:21

阅读数 192

评论数 0

Centos下安装Anaconda

Anaconda:是一个开源的Python发行版,其包含了conda,Python等180多个科学包及其依赖项。Anaconda利用工具/命令conda来进行package和environment的管理,并且已经包含了python和相关的配套工具 Centos下安装Anaconda步骤: 1、...

2018-07-31 10:41:28

阅读数 405

评论数 0

LCS:最长公共字序列

LCS(Longest Common Subseqence)即最长公共字序列,一个序列,如果是两个或多个已知序列的字序列,切是所有字序列中最长的,则为最长公共字序列 LCS可以用来描述两段文字之间的”相似度” 一般LCS都是采用动态规划法来进行求解,下面我们就来看一下如何求解,先看看下面的公式...

2018-07-30 23:20:13

阅读数 68

评论数 0

TF-IDF

TF-IDF(term frequency-inverse document frequency)是一种用于信息检索于数据挖掘常用的加权技术 TF-IDF是一种统计方法,用于评估一个词对一个文件集或一个语料库中的某一份文件的重要程度,字词的重要性随着他在文件中出现的次数成正比增加,但是会随着它在...

2018-07-30 14:12:33

阅读数 59

评论数 0

余弦相似度

相似度,即综合评定两个事物之间相近程度的一种度量 相似度值越小,两个物品之间的距离越大,相似度值越大,两个物品之间的距离越小 最常用———余弦相似度: 余弦相似度是:一个向量空间中两个向量夹角的余弦值作为衡量两个个体之间差异的大小,余弦值接近1,夹角处于0,表明两个向量相似。 数学中余弦相...

2018-07-30 13:43:16

阅读数 609

评论数 0

初谈推荐算法:协同过滤推荐(CF)算法

本章主要讲解协同过滤推荐(CF)算法的基础 协同过滤简单来说就是利用某兴趣相投,拥有共同经验之群体的喜好来推荐用户感兴趣的信息。个人通过合作机制基于信息相当程度的回应(如评分)并记录下来以达到过滤的母的进而帮助别人筛选信息,回应不一定局限于特别感兴趣,特别不感兴趣的记录也是相当重要的 下面我们...

2018-07-29 13:45:38

阅读数 124

评论数 0

Centos7.0.x防火墙基础

Centos7.0.x他的防火墙默认使用firewall 关于防火墙的简单使用 1、直接使用自带防火墙firewall 1)启动防火墙: 2)关闭防火墙: 3)开启端口: 其中参数含义: –zone:作用域 –add-port=80/tcp:添加端口号,格式为:端口号/...

2018-07-27 16:18:21

阅读数 318

评论数 0

Centos7网络重启失败

Centos修改了/etc/sysconfig/network-scripts/ifcfg-enss33文件后,重启网络会失败 重启网络命令:systemctl restart network.service 或者/etc/init.d/network restart 出现如下错误: 根据提...

2018-07-27 16:02:46

阅读数 1089

评论数 0

ImportError: No module named redis

在安装了Redis后,Python语言编程在import redis的时候出现“ImportError: No module named redis”。那是因为Python默认不支持Redis的,应用的时候就会报错。这就需要我们为Python环境安装Redis,具体步骤如下: 1、下载redis...

2018-07-26 14:57:53

阅读数 226

评论数 0

初谈推荐算法:基于内容推荐(CB)算法

本章主要谈谈基于内容Content Based推荐算法 CB推荐算法主要有两种子推荐算法: 1、引入item属性的Content Based推荐 2、引入user属性的Content Based推荐 先讲一下item内容属性索引构建: 1、对item的元信息进行分词,打分构建一个整排...

2018-07-22 18:56:54

阅读数 1735

评论数 0

初谈推荐算法:推荐基本流程

所谓的推荐算法啊就是利用用户的一些行为,通过一些数学算法,推测出用户可能喜欢的东西 本章博主主要介绍推荐的整个流程 从上图可以看出在真个推荐的过程中有以下几大角色:用户、搜索引擎、数据库、排序模型。 下面具体介绍一下这几大角色: 1、用户:用户当然是指行为发起的人。 2、 推荐引...

2018-07-22 17:59:15

阅读数 977

评论数 0

Linux虚拟机安装

博主这里用的虚拟机是VMwareWorkstation12中文版的,Linux是CentOS-6.5 安装步骤: Step1: 点击创建虚拟机: Step2: 选择配置类型,有两种配置类型:典型和自定义,一般选择典型就可以了 选好配置类型点击“下一步” ...

2018-06-13 21:30:38

阅读数 185

评论数 0

Hadoop集群搭建(二)

在上一节中介绍了Hadoop集群简图和网络环境配置,本节将介绍Java环境的安装: 1、Jdk安装两种方式: 1)源安装很简单,一个命令搞定。 sudo apt-get install oracle-java8-installer 当然之前也需要更新一下源: ...

2018-05-30 14:41:37

阅读数 59

评论数 0

Hadoop集群搭建(一)

在讲解Hadoop集群搭建之前,先讲解一下我们想搭建的集群结构图,方便大家更好的认识和理解我们接下来要进行的工作。

2018-05-30 14:00:50

阅读数 74

评论数 0

Vim编辑器python自动补全

step 1: 检查~用户目录下是否存在.vim文件夹和.vimrc文件 如果不存在,创建.vim文件夹和.vimrc文件 命令如下: 创建.vim文件夹 mkdir -p .vim 创建.vimrc文件 touch .vimrc...

2018-05-18 09:41:10

阅读数 1186

评论数 0

Python数据类型简述

Python有五个标准数据类型: 1、Number(数字) 2、String(字符串) 3、List(列表) 4、Tuple(元祖) 5、Dictionary(字典) Python数字数据类型用于存储数字 他们是不可以改变数据类型,这意味着改变数字数据类型会分配一个新的对象 Pyt...

2018-05-16 14:55:17

阅读数 166

评论数 0

提示
确定要删除当前文章?
取消 删除