metooman-CSDN博客

原创读《推荐系统算法实战黄美灵》第五章笔记

基于内容相似度的召回-word2vec ：就是通过对物品内容的理解，比如物品的基础属性，物品的特征，得到物品的向量表达，然后通过余弦相似度计算得到相似物品的列表。word2vec 在python和spark 中都有实现api， spark mllib feature word2vec的方法中间有大量nlp相关的东西，和代码之后再补充...

2019-09-17 21:12:36 947

原创读《推荐系统算法实战黄美灵》第四章笔记

有离线召回和实时召回（用户的行为需要实时的召回数据，然后排序推荐，整个过程应该在100ms内）推荐系统召回方法有以下几类：行为相似的召回：比如用户的行为对应物品的相似物品（通常是协同过滤算法）相似用户召回：通过用户画像和用户行为，计算相似用户，可以根据KNN来得到推荐结果内容相似召回：通过对物品内容的理解和分析，得到物品之间的相似度，然后根据用户对物品的行为得到相似物品的推荐结果，常用的方...

2019-09-17 19:49:41 726

原创读《推荐系统算法实战黄美灵》第二章笔记

推荐系统：主要功能是召回和排序两个过程。推荐系统的召回算法：一般使用简单的特征进行快速查询，比如根据用户点击的物品召回相似的物品，根据用户兴趣类目召回物品等排序模块：针对召回模块的候选集进行精排，根据用户的所有标签特征，物品的特征，以及交叉组合特征，通过排序模型计算得到用户对候选集物品的评分，排序模块使用的特征比召回模块复杂，目的是计算用户精确的预测值后排模块：在得到用户对候选集评分结...

2019-09-17 19:22:44 1113

原创 impala 0

在写impala的技术文档前，先做一下工作的整理。架构是日志收集到kafka ，经过清洗后存放到kudu中，然后定时去做mapreduce 任务，将kudu中的老表的数据分配到hdfs 中。其中 hdfs 是用hive来管理，文件格式是parquet格式（列式存储）。通过impala 去查询parquet格式文件和kudu表，做一个union all的聚合。因此在这里我用到了i...

2018-08-16 09:36:33 397

原创大数据的整理

主要分为，大数据运维方向，大数据数仓方向，大数据的计算方向。接下来的4天会输出一份 impala的文档

2018-08-16 09:23:37 437

原创 18年专业课考试大纲

803计算机学科基础综合一、考查目标计算机学科基础综合考试涵盖数据结构、计算机组成原理、操作系统和计算机网络等学科专业基础课程。要求考生比较系统地掌握上述专业基础课程的基本概念、基本原理和基本方法，能够综合运用所学的基本原理和基本方法分析、判断和解决有关理论问题和实际问题。二、考试形式和试卷结构　　1、试卷满分及考试时间　　本试卷满分为150分，考试时间为

2018-01-27 23:15:08 332

原创 canal mysql数据同步到其它数据库（oracle，hbase，redis，mongoDB等）

1.canal是阿里巴巴mysql数据库binlog的增量订阅&消费组件GitHub 地址 https://github.com/alibaba/canal下载地址 https://github.com/alibaba/canal/releases目前最新的是 1.0.25 我在单节点上配置的是1.0.24版本canal.deployer-1.0.25.tar.gz2.首先是m

2018-01-15 09:55:45 4296 1

原创 centos7.3 CDH5.11.2安装

前面是按照centeros 6.5 cms5.3.6 来安装，后面是centos7.3 CDH5.11.2安装与前面不同的地方。1.目前安装的环境：centeros 6.5 cms5.3.6 cdh5.3.6 本地虚拟机， 3节点（测试环境），主节点需要的内存多点（8G以上），使用的时root用户安装所以再集群搭建时要注意这些方面的问题。(linux

2018-01-15 09:51:43 986

原创 spark1.3版本源码解读

脚本启动流程1、在主节点启动start-all.sh 调用 start-master.sh 调用 start-daemon.sh org.apache.spark.deploy.master.Master 调用 spark-class (启动后面类的main方法)2、start-slaves.sh 调用 start-slave.sh spark://hadoop01:70773、spark-

2017-12-11 19:47:23 421

原创 SparkWordCount源码原理

def textFile( path: String, minPartitions: Int = defaultMinPartitions): RDD[String] = withScope { assertNotStopped() hadoopFile(path, classOf[TextInputFormat], classOf[LongWritable]

2017-12-11 19:40:32 319

原创 spark-streaming

SparkStrem是一个可扩展，高吞吐量，实时的流式处理可以与多个数据源整合将数据流分批次处理，每个批次就是一个时间段（每隔一段时间处理一次）Dstream将持续性的数据流，分割成一系列RDD，每个RDD含有一段时间内的数据。是一个离散流，是sparkstreaming的基本数据抽象，由连续的RDD构成。Dstram之间有依赖关系窗口函数：一段时间内数据发生的变化 (像统计每小时注册量，金

2017-12-11 19:39:19 240

原创 sparkRDD

RDDRDD弹性分布式数据集，spark最基本的数据抽象，代表一个不可变，可分区，里面元素可并行计算的集合。具有数据流模型的特点：自动容错，位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时，显示地将工作集缓存在内存中，后续的查询能重用工作集，这极大提高查询速度特点：一系列的分区，每一个函数作用于每个分区，RDD之间是一系列依赖，如果是k-v类型的RDD，会有一个分区器，分区器就是决定把

2017-12-11 19:37:12 1492

原创 spark的一些小项目

sparkwordcountobject SparkWC { def main(args: Array[String]): Unit = { //创建配置信息类，并设置应用的程序名称 //local [2] 本地启用2个线程模拟集群运行任务 //local [*] 本地有多少空线程就启用多少线程来运行任务 //提交到集群运行时setmaster注释掉 va

2017-12-11 19:35:53 5294

原创 spark源码打包编译步骤

目的是当需要修改spark源码时，项目需要使用自己的编译包硬件环境：centOS6.x 64位系统，安装桌面版内存4G以上 IDEA-linux版软件环境：JDK Maven Spark源码步骤：1、解压spark源码包： tar -zxvf spark-1.6.1.tgz -C /usr/local/src2、用maven编译源码： export MAVEN_OPTS="-Xm

2017-12-11 19:34:00 1366

原创 spark-sql使用

spark-sqlspark-sql 在cli端的操作使用spark-sql编程需要配置jar包通过反射推断schema通过structtype指定schema通过spark-shell从mysql中加载数据将数据保存到mysql中hive-on=sparkspark-sqlDataFrames:分布式数据容器，像关系型数据库的二维表格。相当于一张表。除了数据外，还记录了数据的结构信

2017-12-11 19:33:00 1812

RDD API 分为Actor类型与Transformation类型Transformation：延迟加载，并不会直接计算结果，而是记住这些应用到基础数据集上的转换动作。只有在要求返回结果给Driver的动作时（也可以说到actor方法），这些转换才会真正运行，这让spark更加有效率地运行常用的transformation apimap(func)，遍历元素通过func函数生成新的元素filte

2017-12-11 19:31:17 934

原创 spark搭建

spark搭建

2017-12-11 19:29:59 264

原创 scala语法

scala语法

2017-12-11 19:26:59 421

原创 hadoop java API问题总结一

关于副本数量的问题副本数由客户端的参数dfs.replication决定（优先级： conf.set > 自定义配置文件 > jar包中的hdfs-default.xml）

2017-09-15 20:21:47 259

原创 hadoop 配置文件

/core-site.xml ****！！！以下单位MB //指定namenode的命名空间 fs.defaultFS hdfs://hadoop01:9000 //这里是配置缓冲流的大小，，hadoop2.* 是4096 3.*是131072

2017-09-14 19:46:06 216

原创 hadoop 搭建集群配置

1.要有个规划，由于是用自己电脑来模拟搭建，因此在以三个节点为例来演示hadoop 的搭建hadoop01 ip 51 namenode、datanode 、 nodemanager 、resourcemanager、jobhistoryserverhadoop02 ip 52 datanode 、secondarynamenode 、nodemanagerhadoop03 ip

2017-09-14 19:16:41 234

原创 linux hadoop 安装

下载hadoop文件 hadoop*.tar.gztar -zxvf /home/hadoop*.tar.gz -C /opt/appvi /etc/profile/ 配置HADOOP_HOME HADOOP_HOME=...PATH=$PATH:$JAVA_HOME/BIN:$HADOOP_HOME/bin:$HADOOP_HOME/sbin: 这是在有JAVA

2017-09-14 17:54:40 426

原创 linux 免登录

在大数据集群中，或者普通远程连接服务器都会使用ssh免登录ssh-keygen 获取ssh 公钥私钥在/root/.ssh 文件下ssh-copy-id 机器名（hosts里配置过映射）也可以给本机使用。

2017-09-14 17:47:15 210

原创 linux 安装nginx

root 用户登录which nginx如果没有 rpm -ivh http://nginx.org/packages/centos/6/noarch/RPMS/nginx-release-centos-6-0.el6.ngx.noarch.rpm 如果没反应，那就是网络问题然后再 yum install nginx service nginx restart/start/s

2017-09-13 19:59:16 171

原创 vm linux 快照clone

虚拟机：使用nat 模式，设置ip地址子网掩码（与ip按位与&来确定网段），还有网关我使用 192.168.110.0 255.255.255.0 192.168.110.2在虚拟机中，我们可以在 vi /etc/sysconfig/network-scripts/ifcfg-eth0 中设置 ip 网关 dns uuid 网卡dns 与网关设置一样重启服务

2017-09-13 19:26:12 283

原创 linux java安装

which java 有：mv /usr/bin/java /usr/bin/java.bak没有，pass将jdk 添加到linux里；在 opt目录下创建app目录，这是以后安装软件目录tar -zxvf /home/jdk-7u79-linux-x64.gz -C /opt/app/vi /etc/profile在最后添加JAVA_HOME=/opt/a

2017-09-13 19:10:34 192

原创 java中的装饰者模式

定义：装饰模式又名包装（Wrapper）模式。　　装饰模式以对客户端透明的方式扩展对象的功能，是继承关系的一个替代方案。　　装饰模式通过创建一个包装对象，也就是装饰，来包裹真实的对象。　　装饰模式以对客户端透明的方式动态地给一个对象附加上更多的责任。换言之，客户端并不会觉得对象在装饰前和装饰后有什么不同。　　装饰模式可以在不创造更多子类的情况下，将对象的功能

2017-09-12 21:11:40 253

原创数据挖掘，数据处理与数据分析。

大数据驱动业务按渠道拆分，按地域拆分。。。我们将数据获取全获取细，然后让业务人员去找自己需要的数据数据流程：数据采集-》数据建模-》数据分析数据采集的基本原则：全：多种源（客户端，服务端，数据库），全量而非抽样细：who when where how what常用的数据采集方式：可视化埋点（像页面的点击）代码埋点导入辅助工具数据建模（数据

2017-09-11 21:33:48 2089

原创 django 基础

models.py文件，定义模型类模型类继承自models.Model类生成数据表激活模型：编辑settings.py文件，将booktest应用加入到installed_apps中生成迁移文件：根据模型类生成sql语句 python manage.py makemigrations迁移文件被生成到应用的migrations目录执行迁移：执行s

2017-09-02 22:23:54 255

原创 python基础方面三

异常捕获异常 try...except...else 没有捕获异常云行finally 一定运行的代码有异常中断，然后在except中执行raise 抛出异常与Java throw 一样模块import from .. import from .. import *as 起小名定位模块顺序是：1当前目

2017-09-01 21:49:56 240

原创 python基础方面二

第二部分对象与内建函数对象xx: 公有变量_x: 单前置下划线,私有化属性或方法，from somemodule import *禁止导入,类对象和子类可以访问__xx：双前置下划线,避免与子类中的属性命名冲突，无法在外部直接访问(名字重整所以访问不到)__xx__:双前后下划线,用户名字空间的魔法对象或属性。例如:__init__ , __ 不要自

2017-08-31 22:38:32 236

原创 python基础一

第一部分，字符串字典文件操作字符串操作：字符串的下标与切片可以直接name[0]和name[0:3]字符串反转name[-1:0:-1]=name[-1::-1]=name[::-1]mystr.find(str, start=0, end=len(mystr)) str在mystr中的位置，有返回索引，没有返回-1mystr.index(str,

2017-08-31 22:37:10 367

原创个人总结与目标

自从毕业以来，已经过了3年，工作了3年，但是自己从来没有静下心来好好的思考。在15年的时候，同事跟我说要不写blog 。我却因为种种原因没有开始，当然在网易云笔记里还是写了很多笔记。今天晚上突然想，我不能一个人在那里学习。现在的社会是需要我们展示自己的。所以我给自己定一个目标，从今天起，每天花半个小时到一个小时，将自己从业3年来的笔记与思考展示给大家。还有觉得自己学历有些不够，因此决定在2019年

2017-08-30 22:23:42 309

metooman的博客