自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

MingYueZh的博客

慢慢的,慢慢的,就会了。。。

  • 博客(12)
  • 收藏
  • 关注

转载 CTR模型方案

1. Abstract最近小弟参加了腾讯广告算法竞赛,虽然之前做了一次总结。但我觉得之前那个可能有点泛泛而谈,因此本次想仔细的讲讲关于CTR推荐算法常用的一些模型。对于CTR预测或者推荐算法,数据大多主要是用户数据和推荐的商品,广告数据。这些数据都有一个很大的特点:稀疏。在机器学习上面。我们通常把这些问题使用有监督学习算法做二分类预测,我们将其看作一个概率模型P(click| product ...

2018-11-10 20:26:01 1623

转载 特征提取方法 one-hot和TF-IDF

one-hot 和 TF-IDF是目前最为常见的用于提取文本特征的方法,本文主要介绍两种方法的思想以及优缺点。1. one-hot1.1 one-hot编码  什么是one-hot编码?one-hot编码,又称独热编码、一位有效编码。其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。举个例子,假设我们有四个样本(行),每个样...

2018-11-10 15:19:07 397

原创 HBase过滤器

过滤器就是对数据库获取的数据进行过滤,将符合条件的数据返回客户端,从而减少从region服务器向客户端发送的数据,从而减少数据传输,提高效率。所有的过滤器都要实现Filter接口。HBase同时还提供了FilterBase抽象类,它提供了Filter接口的默认实现。而在HBase提供的过滤器中,也主要分为几种过滤器:比较过滤器、专用过滤器和扩展过滤器。过滤器的组成:主要有过滤器本身、比较器和比较运...

2018-06-29 11:04:32 401

原创 HBase的Region定位

Region定位:系统如何找到某个row key (或者某个 row key range)所在的region关于Region的查找,早期的设计(0.96.0)之前是被称之为三层查询架构,如下图所示:Region:就是要查找的数据所在的Region.META.:是一张元数据表,记录了用户表的Region信息以及RegionServer的服务器地址,.META.可以有多个regoin。.META.表中...

2018-06-28 16:20:57 15165 4

原创 B+和LSM的区别

B+树(主要点)非叶子结点的子树指针与关键字个数相同; 非叶子结点的子树指针P[i],指向关键字值属于[K[i], K[i+1])的子树 ;为所有叶子结点增加一个链指针; 所有关键字都在叶子结点出现;b+树在查询过程中应该是不会慢的,但如果数据插入比较无序的时候,比如先插入5 ,然后10000,然后3,然后800, 这样跨度很大的数据的时候,就需要先“找到这个数据应该被插入的位置”,然后插入数据。...

2018-06-28 11:12:10 9889

原创 安装与配置Apache服务器

Apache下载压缩包http://mirrors.hust.edu.cn/apache/httpd/httpd-2.4.10.tar.bz2解压tar xvf httpd-2.4.10.tar.bz2编译./configure --prefix=/usr/local/apache2 make make install注意prefix= 后面的的目录是我的安装目录,可以随意指定修改配置进入ap...

2018-06-12 14:40:32 587

原创 Eclipse 远程连接 服务器上的HBase

前提:我们的HADOOP和HBase实在远程服务器上搭建的,各个子节点是不能被远程访问,只有一个外网IP。所以, 只能将Java程序导出jar包在服务器主节点运行。Eclipse:将HBase的lib所有jar包导入该工程下并新建lib文件夹,最后全部Bulid Path-->Add To Build Path实例代码:import org.apache.hadoop.conf.Config...

2018-04-19 19:32:37 1381

原创 Linux查看物理CPU个数、核数、逻辑CPU个数

经常使用的命令总结:Linux查看物理CPU个数、核数、逻辑CPU个数# 总核数 = 物理CPU个数 X 每颗物理CPU的核数 # 总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数# 查看物理CPU个数cat /proc/cpuinfo| grep "physical id"| sort| uniq| wc -l# 查看每个物理CPU中core的个数(即核数)cat /p...

2018-04-02 18:54:42 171

原创 Windows登录Linux服务器免密码

windows登录Linux服务器免密码:putty:http://jingyan.baidu.com/article/17bd8e5259dab585aa2bb853.html1、生成公钥和私钥先要下载一个叫puttygen的软件,在Windows端生成公钥和私钥。https://www.chiark.greenend.org.uk/~sgtatham/putty/latest.html点击Ge...

2018-04-02 18:53:11 992

原创 Spark基础概念(2)

val sc=new SparkContext("spark://localhost:7077","ApplicationName","SPARK_HOME","Your_APP_Jar") //创建操作:SparkContext负责创建Spark上下文环境val file=sc.textFile("hdfs://localhost:9000/.../Log") //从HDFS中读取文件v...

2018-04-01 20:19:55 174

原创 Spark基础概念(1)

Google的MapReduce,展示了一个简单通用和自动容错的批处理计算模型。但是对于其他类型的计算,比如交互式计算和流式计算,他不适合。统一大数据处理框架Spark,提出了RDD概念(一种新的抽象的弹性数据集),某种程度是MapReduce的一种拓展。MapReduce缺乏一种特性:即在并行计算的各个阶段进行有效的数据共享,这就是RDD的本质。容错方式:MapReduce是将计算构建成为一个有...

2018-03-31 22:05:55 213

原创 Ubuntu系统维护细节总结

问题:SSH服务端坏掉了,但是客户端好着。(客户端是登录别的机器,服务端是别人登录自己)因为ssh-sshd进程没有开启。但是使用命令无法开启sshd服务。解决:用root用户, 在下边的文件路径手动开启# /usr/sbin/sshd如果出现以下错误:Missing privilege separation directory: /var/run/sshd那就以下操作:# mkdir /var/...

2018-03-31 15:14:13 1035

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除