CF推荐算法-近邻

一、推荐系统效果评估指标 1)均方根误差(RMSE) f(u,i)代表的是预测值,代表的是实际值 N代表的测试集的数量 所以RMSE也就是每个测试集的预测值和实际值的差的平方之和/测试集数量N 然后开根号 2)平均绝对误差(MAE) 和RMSE相似 MAE 每个测试集的预测值...

2018-09-23 23:38:17

阅读数 361

评论数 0

python-Numpy学习(全)

一、数组的创建与操作 1.获取数组的元素 import numpy as np arr1 = np.array([3,10,12,5,6,8,9,111]) print(arr1.shape) arr2 = np.reshape(arr1,(2,4)) print(arr2) print(...

2018-10-28 23:18:16

阅读数 63

评论数 0

hive 分区和分桶

一、为啥分区 hive 为了避免全表查询,从而引进分区,将数据按目录进行划分,减少不必要的查询,从而提高效率 二、hive的分区和mysql分区的区别 mysql的分区字段用的是表内字段,hive的分区字段采用表外字段,也就是使用伪字段,分区字段在创建表的时候指定 分区的关键字:parti...

2018-10-15 19:13:16

阅读数 418

评论数 0

hive join

join关键字默认为内连接,返回两张表中都有的信息; left join以前面的表作为主表和其他表进行关联,返回的记录数和主表的记录数相同,关联不上的字段用NULL; right join与left相反,以后面的表为主表,和前面的表做关联,返回的记录数和主表一致,关联不上的字段为NULL; ...

2018-10-13 15:23:14

阅读数 29

评论数 0

K-means算法

算法思想: 以空间中K个点为中心,对最靠近他们的点进行归类,通过迭代,逐次更新各聚类中心点的值,直到有最好的聚类效果 算法描述: 1)开始随机选中k个点作为初始中心 2)开始迭代,求其到各中心ci的距离,算出距离di,选出di最小的一个中心点,作为这个点所在类 3)利用均值的方法更新该类...

2018-09-26 15:50:43

阅读数 47

评论数 0

梯度下降 随机梯度下降 算法

一、一维梯度下降 算法思想: 我们要找到一个函数的谷底,可以通过不断求导,不断逼近,找到一个函数求导后为0,我们就引入了一个概念 学习率(也可以叫作步长),因为是不断逼近某个x,所以学习率过大会导致超过最优解,而学习率过小,会导致收敛速度过慢。 二、多维梯度下降 算法思想: 和一维...

2018-09-25 17:03:21

阅读数 795

评论数 0

python实现决策树代码

数据图片   from sklearn.feature_extraction import DictVectorizer import csv from sklearn import preprocessing from numpy import * import numpy as np...

2018-09-12 19:01:26

阅读数 330

评论数 0

机器学习-决策树算法

机器学习中分类和预测算法的评估: 1.准确率 2.速度 3.强壮性 4.可规模性 5.可解释性   1.什么是决策树/判定树 判定树是一个类似于流程图的树结构:其中,每个内部结点表示在一个属性上的测试,每个分支代表一个属性输出,而每个树叶结点代表类或类分布。树的最顶层是根结点。 ...

2018-09-11 21:05:58

阅读数 48

评论数 0

机器学习-基本概念

基本概念:测试集,特征集,监督学习,非监督学习,半监督学习,分类,回归 一个简单的监督学习例子      天气:晴,阴,雨      温度:暖,冷      湿度:普通,大      风力:强,弱      水温:暖,冷      预报:一样,变化      享受运动:是,否...

2018-09-11 20:17:08

阅读数 64

评论数 0

hive jdbc 插入中文数据乱码 解决

在插入的数据中对中文数据进行解码和转码 string= new String(string.getBytes("unicode"),"iso-8859-1"); 再插入数据就不再乱码了

2018-08-28 21:48:42

阅读数 232

评论数 0

Hbase HRegionServer 启动不了的解决方案

时间不同步的问题 在每个集群下面输入这个命令就可以更新时间 ntpdate pool.ntp.org 然后start-hbase.sh就可以了

2018-08-27 11:21:32

阅读数 592

评论数 1

Java实现 SparkStreaming读取Kafka数据,并且单词累加计数

网络上大部分文章都没有做到真正的单词累加计数,终于研究完以后成功实现 简单的Kafka生产者 package com.zwj.utils; import kafka.javaapi.producer.Producer; import kafka.producer.KeyedMessage;...

2018-08-24 11:16:04

阅读数 1685

评论数 0

SparkStreaming 读取NC,并单词计数

package SparkStream import org.apache.spark.{HashPartitioner, SparkConf} import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream} ...

2018-08-20 10:14:41

阅读数 213

评论数 0

读取Kafka数据并作单词计数

读取Kafka数据并计数的代码 package SparkStream import org.apache.spark.{HashPartitioner, SparkConf} import org.apache.spark.storage.StorageLevel import org.a...

2018-08-20 10:05:17

阅读数 120

评论数 0

kafka API练习

生产者层面 package Kafka import java.util.Properties import kafka.producer.{KeyedMessage, Producer, ProducerConfig} object KafkaProducerTest { de...

2018-08-18 17:51:24

阅读数 61

评论数 0

Spark aggergate算子的原理

//输出的是0 1 因为 ""和 "12" "23"比较最小的是0,而这个结果返回的是0,0.toString之后长度为1了,所以第一个分区的值应该是1, // 1和&quot...

2018-08-15 19:46:23

阅读数 119

评论数 0

Spark中RDD的依赖关系

RDD的依赖关系有两种,一个是宽依赖,一个是窄依赖 宽依赖,就像以前的偷生游击队 父的Partition可以被很多子依赖使用 窄依赖,就像实施了独生子女政策后,只能有一个 即 父的Partition只能被一个子依赖所使用...

2018-08-14 08:50:34

阅读数 141

评论数 0

scala 实现wordCount

object ScalaWordCount { def main(args: Array[String]): Unit = { val lines = List("hello world hello java hello scala",&...

2018-08-10 17:17:44

阅读数 233

评论数 0

scala中模式匹配的一个小坑

object PatternDemo extends App { var sign = 0 val ch = '8' val cc:Char = 'p' var digit = 0 ch match { case '+' => sign = 1 ...

2018-08-08 21:27:27

阅读数 48

评论数 0

scala单例模式、伴生对象

package logging object Student { private var name="" def setname_=(): Unit ={ name +="aaaa" } def g...

2018-08-06 21:23:49

阅读数 51

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭