初入小萌新-CSDN博客

原创 CF推荐算法-近邻

一、推荐系统效果评估指标1）均方根误差（RMSE）f(u,i)代表的是预测值,代表的是实际值N代表的测试集的数量所以RMSE也就是每个测试集的预测值和实际值的差的平方之和/测试集数量N 然后开根号2）平均绝对误差（MAE）和RMSE相似MAE 每个测试集的预测值和实际值的差的绝对值之和 / 测试集数量N 然后开根号3）准确率（Precision）...

2018-09-23 23:38:17 1191

原创 python-Numpy学习（全）

一、数组的创建与操作1.获取数组的元素import numpy as nparr1 = np.array([3,10,12,5,6,8,9,111])print(arr1.shape)arr2 = np.reshape(arr1,(2,4))print(arr2)print(arr1)#取出10,12print(arr1[1:3])#取出第一行第三个 12print...

2018-10-28 23:18:16 968

原创 hive 分区和分桶

一、为啥分区hive 为了避免全表查询，从而引进分区，将数据按目录进行划分，减少不必要的查询，从而提高效率二、hive的分区和mysql分区的区别mysql的分区字段用的是表内字段，hive的分区字段采用表外字段，也就是使用伪字段，分区字段在创建表的时候指定分区的关键字：partitioned by(字段)三、静态分区练习create table if not exist...

2018-10-15 19:13:16 2296

原创 hive join

join关键字默认为内连接，返回两张表中都有的信息；left join以前面的表作为主表和其他表进行关联，返回的记录数和主表的记录数相同，关联不上的字段用NULL;right join与left相反，以后面的表为主表，和前面的表做关联，返回的记录数和主表一致，关联不上的字段为NULL;full join为全关联，返回两个表记录的并集，关联不上的字段为NULL;left semi j...

2018-10-13 15:23:14 328

原创 K-means算法

算法思想：以空间中K个点为中心，对最靠近他们的点进行归类，通过迭代，逐次更新各聚类中心点的值，直到有最好的聚类效果算法描述：1）开始随机选中k个点作为初始中心2）开始迭代，求其到各中心ci的距离，算出距离di，选出di最小的一个中心点，作为这个点所在类3）利用均值的方法更新该类的中心值，也就是把迭代过后，所有属于某个中心点的值的x和y进行求平均找到新的中心点4）对于所有的c...

2018-09-26 15:50:43 449

原创梯度下降随机梯度下降算法

一、一维梯度下降算法思想：我们要找到一个函数的谷底，可以通过不断求导，不断逼近，找到一个函数求导后为0，我们就引入了一个概念学习率（也可以叫作步长），因为是不断逼近某个x，所以学习率过大会导致超过最优解，而学习率过小，会导致收敛速度过慢。二、多维梯度下降算法思想：和一维梯度下降算法思想类似，只是导数由原来的一维变成现在的多维，算法思想本质没有变化，在计算导数的过程发生了...

2018-09-25 17:03:21 2431

原创 python实现决策树代码

数据图片 from sklearn.feature_extraction import DictVectorizerimport csvfrom sklearn import preprocessingfrom numpy import *import numpy as npfrom sklearn import treefrom sklearn.externals.si...

2018-09-12 19:01:26 3063

原创机器学习-决策树算法

机器学习中分类和预测算法的评估：1.准确率2.速度3.强壮性4.可规模性5.可解释性 1.什么是决策树/判定树判定树是一个类似于流程图的树结构：其中，每个内部结点表示在一个属性上的测试，每个分支代表一个属性输出，而每个树叶结点代表类或类分布。树的最顶层是根结点。2.机器学习中分类方法中的一个重要算法3.构造决策树的基本算法3.1熵的概念一...

2018-09-11 21:05:58 279

原创机器学习-基本概念

基本概念：测试集，特征集，监督学习，非监督学习，半监督学习，分类，回归一个简单的监督学习例子天气：晴，阴，雨温度：暖，冷湿度：普通，大风力：强，弱水温：暖，冷预报：一样，变化享受运动：是，否1.这是一个分类问题，最终的结果只有true/false的答案2.x是每一个实例，X是全部的实...

2018-09-11 20:17:08 177

原创 hive jdbc 插入中文数据乱码解决

在插入的数据中对中文数据进行解码和转码string= new String(string.getBytes("unicode"),"iso-8859-1");再插入数据就不再乱码了

2018-08-28 21:48:42 851

原创 Hbase HRegionServer 启动不了的解决方案

时间不同步的问题在每个集群下面输入这个命令就可以更新时间ntpdate pool.ntp.org然后start-hbase.sh就可以了

2018-08-27 11:21:32 2834 1

原创 Java实现 SparkStreaming读取Kafka数据，并且单词累加计数

网络上大部分文章都没有做到真正的单词累加计数，终于研究完以后成功实现简单的Kafka生产者package com.zwj.utils;import kafka.javaapi.producer.Producer;import kafka.producer.KeyedMessage;import kafka.producer.ProducerConfig;import org.a...

2018-08-24 11:16:04 4961 1

原创 SparkStreaming 读取NC，并单词计数

package SparkStreamimport org.apache.spark.{HashPartitioner, SparkConf}import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Seconds, Streami...

2018-08-20 10:14:41 913

原创读取Kafka数据并作单词计数

读取Kafka数据并计数的代码package SparkStreamimport org.apache.spark.{HashPartitioner, SparkConf}import org.apache.spark.storage.StorageLevelimport org.apache.spark.streaming.dstream.{DStream, ReceiverInp...

2018-08-20 10:05:17 360

原创 kafka API练习

生产者层面package Kafkaimport java.util.Propertiesimport kafka.producer.{KeyedMessage, Producer, ProducerConfig}object KafkaProducerTest { def main(args: Array[String]): Unit = { //定义topic...

2018-08-18 17:51:24 279

原创 Spark aggergate算子的原理

//输出的是0 1 因为 ""和 "12" "23"比较最小的是0,而这个结果返回的是0，0.toString之后长度为1了，所以第一个分区的值应该是1, // 1和"333"的长度比较，最小的是1,又和""比较，最小的是0 所以最后输出的是0 1 val rdd5 = sc.parallelize(List("12","23","333"

2018-08-15 19:46:23 353

原创 Spark中RDD的依赖关系

RDD的依赖关系有两种，一个是宽依赖，一个是窄依赖宽依赖，就像以前的偷生游击队父的Partition可以被很多子依赖使用窄依赖，就像实施了独生子女政策后，只能有一个即父的Partition只能被一个子依赖所使用...

2018-08-14 08:50:34 493

原创 scala 实现wordCount

object ScalaWordCount { def main(args: Array[String]): Unit = { val lines = List("hello world hello java hello scala","hello world hello java hello scala","hello java hello scala") //获取单词...

2018-08-10 17:17:44 781

原创 scala中模式匹配的一个小坑

object PatternDemo extends App { var sign = 0 val ch = '8' val cc:Char = 'p' var digit = 0 ch match { case '+' => sign = 1 case '-' => sign = -1 //使用|分割多个选项 case '*' |...

2018-08-08 21:27:27 316

原创 scala单例模式、伴生对象

package loggingobject Student { private var name="" def setname_=(): Unit ={ name +="aaaa" } def getName = name}package loggingobject Test extends App { //var student = new S...

2018-08-06 21:23:49 177

原创 Scala Mixins特性

package day02abstract class A { val msg:String}class B extends A { override val msg: String = "I am B"}//此处的特征C即为mixintrait C extends A{ def loudMsg = msg.toUpperCase()}trait H extend...

2018-08-06 17:46:06 221

原创 Spark和Hadoop的区别

Spark是基于内存的一种计算框架（有时也会用磁盘，比如Spark Shuffle的时候），但是很多操作，比如单纯的map操作，没有reduce操作；或者是filter类的操作，都是可以直接基于内存进行计算的MapReduce的计算模型非常固定，必须基于磁盘，以及大量的网络传输所以，Spark的速度可以比MapReduce，Hive快很多SparkSQL只是替代Hive的计算引擎...

2018-08-06 11:39:10 839

原创 Scala类的get,set方法

package day02import sun.management.Agentclass Student { //命名的时候不能和下面的set方法X_中的X重复，否则会出现二义性的异常 private var ages = 0 private var names = "" def age = ages //set方法必须要变量名_ 也就是age_ def a...

2018-08-06 11:36:05 5089

原创 HBase mapreduce的使用

package com.demo;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.client.Mutation;import ...

2018-08-04 16:59:09 623

Hbase为啥列镞的数量不能过多，官网的解释加自己的理解首先，刷新和压缩是按区域进行的，如果一个列镞携带来大量数据，当达到给定大小（hbase.hregion.memstore.flush.size）时，就会将内容刷新到StoreFile,而Store中的StoreFile会因为时间的推移而增加，压缩就是为了减少Store中StoreFiles的数量，将一些StoreFile合并，这样可以提高...

2018-08-04 09:16:25 2934

原创 Hbase Java操作以及简单业务

package com.test;import java.io.IOException;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.ArrayList;import java.util.Iterator;import java.util.List;import...

2018-08-01 20:59:33 864

原创自定义hive的函数

package com.udf;import org.apache.hadoop.hive.ql.exec.UDF;public class MyConcatUdf extends UDF{ public String evaluate(String word) { if(word == null) { return "NULL"; } return word+"_...

2018-07-28 21:57:17 172

原创 hive内部函数

select split(rand()*100,'\\.')[0];随机取整数select round(rand()*100);随机取整数select round(rand()*100,2);//后面跟的是小数的位数select substring(rand()*100,0,2);select regexp_replace("a.jpg","jpg","png");//jpg替换成...

2018-07-28 21:04:47 458

原创 hive的复杂数据类型

数组类型create table arr1(name String,score Array<double>)row format delimited fields terminated by '\t'collection items terminated by ',' 这代表数组以‘,’分割stored as textfile;简单查询map类型...

2018-07-28 20:33:31 1618

原创 hive分区2

这句话是将已经有内容的表comm3添加到分区表comm4中去需要设置 set hive.exec.dynamic.partition.mode=nonstrict;此时插入数据不需要设置成nonstrict只需要设置成strict插入了2016这个数据...

2018-07-28 17:28:55 143

原创 hive分区

创建一个分区表create table comm(id int,comment String,dt String)partitioned by (year String)row format delimited fields terminated by '\t';数据导入load data inpath '/data/d1' into table comm parti...

2018-07-28 15:33:51 139

原创 Hive的命令

create database 数据库名大部分命令和sql命令一样其创建出来的数据库在hdfs文件系统中的/user/hive/warehouse可以通过下面这个命令查看hdfs dfs -ls /user/hive/warehouse创建表create table hivetable3(id bigint,name String,sex tinyint)row...

2018-07-27 22:14:49 2659

原创 hadoop处理数据的效率的几个因素

1、与文件大小无关，与有效数据读写有关2、与实际运算的效率有关

2018-07-27 11:25:03 1347

原创 Hadoop中MapReduce 的Combiner 的实现

自己实现Combinerpackage com.mapreduce;import java.io.IOException;import org.apache.hadoop.examples.SecondarySort.Reduce;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Reducer...

2018-07-26 16:50:15 265

原创 Hadoop 分区案例（根据不同的值分到不同文件）

主程序代码package com.mapreduce;import java.io.IOException;import javax.imageio.stream.FileImageInputStream;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;imp...

2018-07-26 11:21:34 692

原创 Hadoop MapReduce 的模板

package com.mapreduce;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io...

2018-07-26 11:14:59 151

原创 MapReduce的流程

每一行的输入数据，通过split进行区分然后将区分好的数据存入到各自的Mapping然后Shuffing将key值相同的归在一起安装逻辑Reducing最后的值

2018-07-25 19:52:08 147

原创 awk处理数据

cat /etc/passwd | awk -F ':' 'BEGIN{print "名字\t用户Id"} {if($3 >=500) print($1,$3)'}':' :代表按照:进行分割BEGIN:就是开始做的任务$3,$1代表分割后第3个和第1个的值 awk -F ':' 'BEGIN{print "名字\t用户Id"} {if($3 >=500) print(...

2018-07-25 19:32:13 330

原创关于yarn jar error Command "jar" not found.

在使用 yarn jar ../share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount /data/hdfs-site.xml /out/02跳出error Command "jar" not found.然后进入bin目录下./yarn jar ../share/hadoop/mapreduce/h...

2018-07-25 11:15:32 1505

空空如也

空空如也