MingYueZh-CSDN博客

转载 CTR模型方案

1. Abstract最近小弟参加了腾讯广告算法竞赛，虽然之前做了一次总结。但我觉得之前那个可能有点泛泛而谈，因此本次想仔细的讲讲关于CTR推荐算法常用的一些模型。对于CTR预测或者推荐算法，数据大多主要是用户数据和推荐的商品，广告数据。这些数据都有一个很大的特点：稀疏。在机器学习上面。我们通常把这些问题使用有监督学习算法做二分类预测，我们将其看作一个概率模型P(click| product ...

2018-11-10 20:26:01 1636

转载特征提取方法 one-hot和TF-IDF

one-hot 和 TF-IDF是目前最为常见的用于提取文本特征的方法，本文主要介绍两种方法的思想以及优缺点。1. one-hot1.1 one-hot编码　　什么是one-hot编码？one-hot编码，又称独热编码、一位有效编码。其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。举个例子，假设我们有四个样本（行），每个样...

2018-11-10 15:19:07 398

原创 HBase过滤器

过滤器就是对数据库获取的数据进行过滤，将符合条件的数据返回客户端，从而减少从region服务器向客户端发送的数据，从而减少数据传输，提高效率。所有的过滤器都要实现Filter接口。HBase同时还提供了FilterBase抽象类，它提供了Filter接口的默认实现。而在HBase提供的过滤器中，也主要分为几种过滤器：比较过滤器、专用过滤器和扩展过滤器。过滤器的组成：主要有过滤器本身、比较器和比较运...

2018-06-29 11:04:32 403

原创 HBase的Region定位

Region定位：系统如何找到某个row key (或者某个 row key range)所在的region关于Region的查找，早期的设计（0.96.0）之前是被称之为三层查询架构，如下图所示：Region：就是要查找的数据所在的Region.META.：是一张元数据表，记录了用户表的Region信息以及RegionServer的服务器地址，.META.可以有多个regoin。.META.表中...

2018-06-28 16:20:57 15193 4

原创 B+和LSM的区别

B+树(主要点)非叶子结点的子树指针与关键字个数相同；非叶子结点的子树指针P[i]，指向关键字值属于[K[i], K[i+1])的子树 ;为所有叶子结点增加一个链指针；所有关键字都在叶子结点出现；b+树在查询过程中应该是不会慢的，但如果数据插入比较无序的时候，比如先插入5 ，然后10000，然后3，然后800，这样跨度很大的数据的时候，就需要先“找到这个数据应该被插入的位置”，然后插入数据。...

2018-06-28 11:12:10 9892

原创安装与配置Apache服务器

Apache下载压缩包http://mirrors.hust.edu.cn/apache/httpd/httpd-2.4.10.tar.bz2解压tar xvf httpd-2.4.10.tar.bz2编译./configure --prefix=/usr/local/apache2 make make install注意prefix= 后面的的目录是我的安装目录，可以随意指定修改配置进入ap...

2018-06-12 14:40:32 589

原创 Eclipse 远程连接服务器上的HBase

前提：我们的HADOOP和HBase实在远程服务器上搭建的，各个子节点是不能被远程访问，只有一个外网IP。所以，只能将Java程序导出jar包在服务器主节点运行。Eclipse:将HBase的lib所有jar包导入该工程下并新建lib文件夹，最后全部Bulid Path-->Add To Build Path实例代码：import org.apache.hadoop.conf.Config...

2018-04-19 19:32:37 1387

原创 Linux查看物理CPU个数、核数、逻辑CPU个数

经常使用的命令总结：Linux查看物理CPU个数、核数、逻辑CPU个数# 总核数 = 物理CPU个数 X 每颗物理CPU的核数 # 总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数# 查看物理CPU个数cat /proc/cpuinfo| grep "physical id"| sort| uniq| wc -l# 查看每个物理CPU中core的个数(即核数)cat /p...

2018-04-02 18:54:42 172

原创 Windows登录Linux服务器免密码

windows登录Linux服务器免密码：putty：http://jingyan.baidu.com/article/17bd8e5259dab585aa2bb853.html1、生成公钥和私钥先要下载一个叫puttygen的软件，在Windows端生成公钥和私钥。https://www.chiark.greenend.org.uk/~sgtatham/putty/latest.html点击Ge...

2018-04-02 18:53:11 992

原创 Spark基础概念（2）

val sc=new SparkContext("spark://localhost:7077","ApplicationName","SPARK_HOME","Your_APP_Jar") //创建操作：SparkContext负责创建Spark上下文环境val file=sc.textFile("hdfs://localhost:9000/.../Log") //从HDFS中读取文件v...

2018-04-01 20:19:55 174

原创 Spark基础概念（1）

Google的MapReduce，展示了一个简单通用和自动容错的批处理计算模型。但是对于其他类型的计算，比如交互式计算和流式计算，他不适合。统一大数据处理框架Spark，提出了RDD概念（一种新的抽象的弹性数据集），某种程度是MapReduce的一种拓展。MapReduce缺乏一种特性：即在并行计算的各个阶段进行有效的数据共享，这就是RDD的本质。容错方式：MapReduce是将计算构建成为一个有...

2018-03-31 22:05:55 214

原创 Ubuntu系统维护细节总结

问题：SSH服务端坏掉了，但是客户端好着。（客户端是登录别的机器，服务端是别人登录自己）因为ssh-sshd进程没有开启。但是使用命令无法开启sshd服务。解决：用root用户，在下边的文件路径手动开启# /usr/sbin/sshd如果出现以下错误：Missing privilege separation directory: /var/run/sshd那就以下操作：# mkdir /var/...

2018-03-31 15:14:13 1037

MingYueZh的博客