自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

种一棵树最好的时间是十年前,其次是现在

  • 博客(1148)
  • 资源 (42)
  • 收藏
  • 关注

原创 机器学习算法原理专栏目录

机器学习十大算法https://xingqijiang.blog.csdn.net/article/details/82426626机器学习 | LR逻辑回归模型https://xingqijiang.blog.csdn.net/article/details/81607994LR 特征离散化https://xingqijiang.blog.csdn.net/article/details/81607994漫画:逻辑回归https://xingqijiang.blog.csdn.

2021-05-03 12:40:46 806 8

原创 机器学习编码分类特征编码LabelEncoder与OneHotEncoder

LabelEncoder是用来对分类型特征值进行编码,即对不连续的数值或文本进行编码。其中包含以下常用方法:fit(y) :fit可看做一本空字典,y可看作要塞到字典中的词。fit_transform(y):相当于先进行fit再进行transform,即把y塞到字典中去以后再进行transform得到索引值。inverse_transform(y):根据索引值y获得原始数据。transform(y) :将y转变成索引值。

2022-12-20 18:25:05 180

原创 Python自然语言处理常用库——jieba库

开发者可以指定自定义词典,以便包含jieba词库里没有的词。虽然jieba有新词识别功能。但是自行添加新词可以保证更高的正确率。用法:jieba.load_userdict(file_name) #file_name为文件类对象或自定义词典的路径词典格式和dict.txt一样,一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。filename若为路径或二级制方式打开的文件,则文件必须为UTF-8编码。词频省略时使用自动计算的能保证分出该词的词频。

2022-12-19 16:22:37 116

原创 AI人工智能算法解析&落地实践专栏列表

移动腾讯网 | 推荐系统 embedding 技术实践总结:https://blog.csdn.net/jxq0816/article/details/106383903。广告算法在阿里文娱用户增长中的实践:https://blog.csdn.net/jxq0816/article/details/104791433。腾讯信息流内容理解技术实践:https://blog.csdn.net/jxq0816/article/details/103507870。人工智能、机器学习、深度学习三者之间有什么关系吗?

2022-12-19 15:57:45 294

原创 Hadoop、HDFS、Hive、Hbase之间的关系

Hbase:是一款基于HDFS的数据库,是一种NoSQL数据库,主要适用于海量明细数据(十亿、百亿)的随机实时查询,如日志明细、交易清单、轨迹行为等。Hbase和Hive在大数据架构中处在不同位置,Hbase主要解决实时数据查询问题,Hive主要解决数据处理和计算问题,一般是配合使用。Hive:用户处理存储在HDFS中的数据,hive的意义就是把好写的hive的sql转换为复杂难写的map-reduce程序。,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能。

2022-12-18 21:00:38 293

原创 算法工程师面试考点思维导图

算法工程师面试考点思维导图。

2022-12-18 12:29:58 26

原创 hive编程 | 使用mvn构造udf函数

在阅读本篇博文之前,建议先读下使用原生添加lib的方式构造udf函数。唯一的区别在pom文件的配置。

2022-12-15 21:30:20 84

原创 hive中文繁简转化opencc4j

toTraditional(char) 返回单个汉字对应的所有繁体字列表。traditionalList(String) 返回包含的繁体列表。toSimple(char) 返回单个汉字对应的所有简体字列表。simpleList(String) 返回包含的简体列表。isTraditional(String) 是否为繁体。toTraditional(String) 转为繁体。toSimple(String) 转为简体。

2022-12-12 20:32:59 340

原创 NLP 结巴分词词性映射关系

NLP 结巴分词词性代码

2022-12-01 11:48:47 233

原创 NLP文章和视频违规声明原创案例集锦

同时以下情形不得声明原创,一经发现将取消文章原创标识,并且根据违规情况对其公众号予以相应处理。3、符合平台运营规范(如营销宣传内容及其他违法违规内容不在原创范围内)3、符合平台运营规范(如营销宣传内容及其他违法违规内容不在原创范围内)1、受著作权法保护(如公开性质内容不具备著作权,则不在原创范围内)1、受著作权法保护(如公开性质内容不具备著作权,则不在原创范围内)2、不得侵犯他人权益(如未经授权使用他人内容,则不在原创范围内)2、不得侵犯他人权益(如未经授权使用他人内容,则不在原创范围内)

2022-11-29 11:58:55 143

原创 hive udf unicode解码

【代码】hive udf unicode解码。

2022-11-21 19:58:29 466

原创 hive ipv4与十进制整数的转换

1、ipv4转十进制整数。2、十进制整数转ipv4。

2022-11-18 11:08:34 520

原创 hive构造UDF函数

1、创建一个project。2、建一个lib文件夹,放入hive-exec-0.13.0.jar,并在libraries中引入该jar包。3、在src目录下创建package,如com.abc。4、创建java文件,继承UDF,写功能代码。5、定义输出文件jar。6、最后执行build module。

2022-11-18 10:53:52 359

原创 以微博核心业务为例,解读如何仅用1台服务器支持百万DAU

近些年,各家公司都在不断推出各种新的 App,百万 DAU 成为各种 App 的最基本目标。本文将详解如何通过大规格服务器 +K8s 的方案简化这些新项目的成本评估、服务部署等管理工作,并在流量增长时进行快速扩容。同时,本文还介绍了微博核心业务采用此方案部署时遇到的问题以及对应的解决方案。

2022-11-04 20:21:30 48

原创 NLP时政有害信息的界定

1. 反对宪法确定的基本原则;2. 危害国家统一、主权和领土完整;3. 泄露国家秘密、危害国家安全或者损害国家荣誉和利益;4. 煽动民族仇恨、民族歧视,破坏民族团结,或者侵害民族风俗、习惯;5. 破坏国家宗教政策,宣扬邪教、迷信;6. 散布谣言,扰乱社会秩序,破坏社会稳定;7. 歪曲、丑化、亵渎、否定英雄烈士事迹和精神,侮辱、诽谤英雄烈士;8. 宣扬赌博、暴力、凶杀、恐怖或者教唆犯罪;9. 煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;10. 突破社会道德底线、制度底线的负面信息;

2022-10-31 11:01:58 84

原创 什么是https加密?

身份盗窃和浏览器警告越来越受到消费者的关注。没有为网站安装合适的SSL证书实现https加密会降低用户的信任度,导致客户流失,使在线成交率下降,从而对企业产生负面影响。在在线商务的领域里,信任就是一切。在保护客户信息安全的技术上投资,可以赢得客户的信任,而这是任何在网上做生意的公司或电子商务网站的关键因素,网站安装SSL证书实现https加密,可以有效地帮助建立客户信任度。

2022-10-28 20:55:14 71

原创 Excel折线图设置坐标轴起点不为0

Excel折线图设置坐标轴起点不为0

2022-10-24 19:17:22 136

原创 行政区域划分

行政区域划分

2022-09-29 11:42:32 99

原创 Shell中的括号、双括号、方括号和双方括号

首先在Shell中,括号表示条件测试方法。主要用在if-then、case等需要条件判断的语句结构中。最近在看bash,括号搞的我一头雾水,所以总结一下,理清思路!括号一般在命令替换的时候使用。双括号使用双括号,在比较过程中使用高级数学表达式注意,不需要将双括号中表达式里的大于号转义。这是双括号命令提供的另一个高级特性。方括号定义了测试条件。第一个方括号后和第二个方括号前都要加一个空格,否则会报错。方括号主要包括4类判断:2、字符串比较 比较 描述

2022-07-12 16:05:09 168

原创 shell 判断脚本执行是否成功 if [ $? -ne 0 ]

$?是shell变量,表示"最后一次执行命令"的退出状态.0为成功,非0为失败.

2022-07-12 15:35:56 914

原创 Linux shell执行hadoop命令清理垃圾箱

Linux shell执行hadoop命令清理垃圾箱

2022-06-29 15:29:26 424

原创 NLP不良信息识别

不良信息包括但不限于:1. 标题党:使用夸张标题,内容与标题严重不符。2. 炒作负面话题:炒作绯闻、丑闻、劣迹等。3. 引战:制造事端或曲解原发内容本意,激化矛盾,引起不同群体相互攻击。4. 其他为获取流量和利益,侵害个人或单位合法权益的行为。宣扬仇恨是指用特定的生理、心理、地域、文化等属性区分出特定的人群加以标签化对立,并对此进行扩散传播,试图将对这一群体的排挤、贬低、歧视、攻击及伤害正当化、常规化的行为:1. 组织、煽动、引导不特定多数用户对具有以下类别的个体或群体的歧视、诽谤、侮辱、仇恨:

2022-06-08 21:29:31 313 1

原创 基于用户的协同过滤算法(二):用户相似度计算的改进

用户相似度计算的改进上一节介绍了计算用户兴趣相似度的最简单的公式(余弦相似度公式),但这个公式过于粗糙,本节将讨论如何改进该公式来提高UserCF的推荐性能。首先,以图书为例,如果两个用户都曾经买过《新华字典》,这丝毫不能说明他们兴趣相似,因为绝大多数中国人小时候都买过《新华字典》。但如果两个用户都买过《数据挖掘导论》,那可以认为他们的兴趣比较相似,因为只有研究数据挖掘的人才会买这本书。换句话说,两个用户对冷门物品采取过同样的行为更能说明他们兴趣的相似度。因此,John S. Breese在论.

2022-05-28 16:46:48 449 2

原创 NLP内容质量识别

一、标题低质图文格式混乱或不美观,音画质量差等影响阅读体验。包含但不限于以下场景:图文低质的内容,包含但不限于以下场景: 排版混乱:文章乱码、无段落或无标点; 语意不明:病句或错别字较多、乱码符号,有碍于读者理解内容; 逻辑混乱:内容拼凑或重复,前后内容没有衔接,无关内容占比较大; 音画低质的内容,包括但不限于以下场景: 视频缩放画面:视频中角标/logo/字幕被剪切,导致显示不全,或画面中人物面部被部分剪切; 视频添加边框:视频添加边框且占比较大,或水印遮挡画面严重,无法识别

2022-05-19 23:42:00 336 1

原创 基于用户的协同过滤算法(一):余弦相似度

基于用户的协同过滤算法是推荐系统中最古老的算法。可以不夸张地说,这个算法的诞生标志了推荐系统的诞生。该算法在1992年被提出,并应用于邮件过滤系统,1994年被GroupLens用于新闻过滤。在此之后直到2000年,该算法都是推荐系统领域最著名的算法。本节将对该算法进行详细介绍,首先介绍最基础的算法,然后在此基础上提出不同的改进方法,并通过真实的数据集进行评测。

2022-05-15 18:49:42 651

原创 linux服务器离线安装conda

问题背景服务器在无法联网的情况下,安装anaconda1、下载安装包https://docs.conda.io/en/latest/miniconda.html#linux-installers2、上传到服务器3、执行安装脚本sh Anaconda3-2021.11-Linux-x86_64.sh可以选择自定义Anaconda3的安装路径...

2022-05-05 23:52:24 847

原创 停止正在运行的hadoop任务

查看正在运行的任务列表yarn application -list -appStates RUNNING停止任务yarn application -kill application_任务编号

2022-05-01 20:53:15 1373

原创 音乐推荐是推荐系统里非常特殊的领域

个性化推荐的成功应用需要两个条件。第一是存在信息过载,因为如果用户可以很容易地从所有物品中找到喜欢的物品,就不需要个性化推荐了。第二是用户大部分时候没有特别明确的需求,因为用户如果有明确的需求,可以直接通过搜索引擎找到感兴趣的物品。在这两个条件下,个性化网络电台无疑是最合适的个性化推荐产品。首先,音乐很多,用户不可能听完所有的音乐再决定自己喜欢听什么,而且每年新的歌曲在以很快的速度增加,因此用户无疑面临着信息过载的问题。其次,人们听音乐时,一般都是把音乐作为一种背景乐来听,很少有人必须听

2022-04-30 16:44:55 1341

原创 Hive MapReduce性能优化

一、Hive任务创建文件数优化1.1 Map端文件合并减少Map任务数量一般来说,HDFS的默认文件块大小是128M,如果在Hive执行任务时,发现Map端的任务过多,且执行时间多数不超过一分钟,建议通过参数,划分(split)文件的大小,合并小文件。如:set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;set mapreduce.input.fileinputformat.split.mi

2022-04-07 12:30:12 190

原创 Hadoop Shell命令

FS Shell调用文件系统(FS)Shell命令应使用bin/hadoop fs <args>的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定的默认scheme。一个HDFS文件或目录比如/parent/child可以表示成hdfs://nameno.

2022-03-15 15:26:10 150

原创 深度解析推荐系统的算法原理

推荐系统基于海量的物品数据的挖掘,通常由 召回层→排序层(粗排、精排、重排)组成,不同的层次的组成,其实也就是信息筛选的漏斗,这也是工程上效率的需要,把意向对象的数量从粗犷到精细化的筛选过程(这过程就像是找工作的时候,HR根据简历985/211粗筛出一部分,再做技能匹配及面试精准筛选,最终敲定合适的人选)

2022-03-02 22:48:00 208

原创 什么是倒排索引?

创建倒排索引,分为以下几步:1)创建文档列表:lucene首先对原始文档数据进行编号(DocID),形成列表,就是一个文档列表2)创建倒排索引列表然后对文档中数据进行分词,得到词条。对词条进行编号,以词条创建索引。然后记录下包含该词条的所有文档编号(及其它信息)。谷歌之父--> 谷歌、之父倒排索引创建索引的流程:1) 首先把所有的原始数据进行编号,形成文档列表2) 把文档数据进行分词,得到很多的词条,以词条为索引。保存包含这些词条的文档的编号信息。搜..

2022-02-27 11:48:26 349

原创 LeetCode No.202 快乐数

一、题目描述编写一个算法来判断一个数 n 是不是快乐数。「快乐数」 定义为:对于一个正整数,每一次将该数替换为它每个位置上的数字的平方和。然后重复这个过程直到这个数变为1,也可能是 无限循环 但始终变不到1。如果这个过程 结果为1,那么这个数就是快乐数。如果 n 是 快乐数 就返回 true ;不是,则返回 false 。示例 1:输入:n = 19输出:true解释:12 + 92 = 8282 + 22 = 6862 + 82 = 10012 + 02 + 02 =

2022-02-26 21:32:47 7958

原创 LeetCode No.234 回文链表

一、题目描述给你一个单链表的头节点 head ,请你判断该链表是否为回文链表。如果是,返回 true ;否则,返回 false 。示例 1:输入:head = [1,2,2,1]输出:true示例 2:输入:head = [1,2]输出:false提示:链表中节点数目在范围[1, 10^5] 内0 <= Node.val <= 9二、解题思路如果你还不太熟悉链表,下面有关于列表的概要讲述。有两种常用的列表实现,分别为数组列表和链表。如果我们想在列表中存

2022-02-13 17:15:27 142

原创 LeetCode No.225 用队列实现栈

一、题目描述请你仅使用两个队列实现一个后入先出(LIFO)的栈,并支持普通栈的全部四种操作(push、top、pop 和 empty)。实现 MyStack 类:void push(int x) 将元素 x 压入栈顶。int pop() 移除并返回栈顶元素。int top() 返回栈顶元素。boolean empty() 如果栈是空的,返回 true ;否则,返回 false 。注意:你只能使用队列的基本操作 —— 也就是push to back、peek/pop from ..

2022-02-12 19:17:38 135

原创 新浪新闻发布Z世代洞察报告:Z世代偏爱深入“吃瓜” 对元宇宙兴趣强烈

2021年12月14日,新浪新闻发布《走进自信的Z世代 2021新青年洞察报告》(以下简称报告),从人群特征、信息获取、生活消费、智能生活等多个维度,全面洞察Z世代的兴趣偏好等特征。据国家统计局、CNNIC数据显示,截至2021年6月,95、00后Z世代活跃用户规模已超2.2亿,约占全体移动网民的22%。报告认为,作为互联网原住民,Z世代新青年身上散落着独特的网络特征和亚文化符号,信息获取、消费决策、生活空间等更具互联网特征,也更加注重个性化和互动体验。内容喜好多元 Z世代最爱吃瓜 且要把瓜吃透

2022-01-03 20:36:50 533

原创 常见用户行为分析模型解析:点击分析模型

点击分析模型在各行业内数据分析应用较为广泛,是重要的数据分析模型之一。点击图与热力图有何差异?热力图是以特殊高亮的形式显示访客热衷的页面区域和访客所在的地理区域的图示,如图。同样,点击图也是特殊高亮的颜色形式的显示。不同的是,点击图是点击分析方法的效果呈现,在用户行为分析领域,点击分析被应用于显示页面或页面组(结构相同的页面,如商品详情页、官网博客等)区域中不同元素点击密度的图示。包括元素被点击的次数、占比、发生点击的用户列表、按钮的当前与历史内容等因素。图1 点击图 (图片来源于网络).

2021-12-12 10:26:40 552

原创 常见用户行为分析模型:用户分群

用户分群是企业精细化,数据化运营的第一步。用户分群数据分析方法是进行用户画像的关键数据分析模型,这是企业进行数据分析、精细化运营的第一步。用户分群即用户信息标签化,通过用户的历史行为路径、行为特征、偏好等属性,将具有相同属性的用户划分为一个群体,并进行后续分析。漏斗分析关注阶段差异,用户分群关注群体差异前面的文章我们讲了漏斗分析模型。通过漏斗分析模型,运营人员可以看到,用户在不同阶段所表现出的行为是不同的,譬如新用户的关注点在哪里?已购用户什么情况下会再次付费?然而,由于群体特征不同,行为会.

2021-12-12 10:24:18 813

原创 常见用户行为分析模型:用户行为路径分析模型

用户行为路径分析同样是重要的数据分析模型,它为企业实现理想的数据驱动与布局调整提供科学指导,对精准勾勒用户画像也有重要参考价值。用户访问APP/网络,如同参观画展,观众是感受和传达画展参展方和展品的目的受众体,图画的展现布局不同,每一位观众根据自身喜好形成特有的参观顺序。为让观众沿着最优访问路径前进,需要策展者结合观众需求进行布局调整。这种自主式的数据分析方法,让业务人员都能科学进行数据分析。什么是用户行为路径?用户路径分析,顾名思义,用户在APP或网站中的访问行为路径。为了衡量网站优化的效果或.

2021-12-12 10:22:04 1383

原创 常见用户行为分析模型:漏斗分析模型

用户行为分析之漏斗分析模型是企业实现精细化运营、进行用户行为分析的重要数据分析模型,其精细化程度影响着营销管理的成败,以及用户行为分析的精准度。现代营销观念认为:“营销管理重在过程,控制了过程就控制了结果。”用户行为分析之漏斗分析模型是企业实现精细化运营、进行用户行为分析的重要数据分析模型,其精细化程度影响着营销管理的成败,以及用户行为分析的精准度。粗陋的漏斗分析模型因为过程管理不透明、数据分析不精细、用户行为分析不科学而造成结果失控。因此,我们经常能够听到一些产品经理的抱怨不绝于耳:从启动 APP.

2021-12-12 10:18:27 729

从贝叶斯公式看AI赋能人脑

從貝氏機率公式_看AI賦能人腦_ok2

2022-05-17

计算广告学第六单元课件.pdf

什么是广告? • 广告(Advertising)的定义 广告是由已确定的出资人通过各种媒介进行的有关产品(商品、服务和观点)的,通常是有偿的、有组织的、综合的、劝服性的非人员的信息传播活动。 • 广告的主体 出资人(sponsor)即广告主(advertiser),媒介(medium),受众(audience) • 广告的本质功能 是借助某种有广泛受众的媒介的力量,完成较低成本的用户接触(reach)

2021-11-03

计算广告学第五单元课件.pdf

什么是广告? • 广告(Advertising)的定义 广告是由已确定的出资人通过各种媒介进行的有关产品(商品、服务和观点)的,通常是有偿的、有组织的、综合的、劝服性的非人员的信息传播活动。 • 广告的主体 出资人(sponsor)即广告主(advertiser),媒介(medium),受众(audience) • 广告的本质功能 是借助某种有广泛受众的媒介的力量,完成较低成本的用户接触(reach)

2021-11-03

计算广告学第四单元课件.pdf

什么是广告? • 广告(Advertising)的定义 广告是由已确定的出资人通过各种媒介进行的有关产品(商品、服务和观点)的,通常是有偿的、有组织的、综合的、劝服性的非人员的信息传播活动。 • 广告的主体 出资人(sponsor)即广告主(advertiser),媒介(medium),受众(audience) • 广告的本质功能 是借助某种有广泛受众的媒介的力量,完成较低成本的用户接触(reach)

2021-11-03

计算广告学第三单元课件.pdf

什么是广告? • 广告(Advertising)的定义 广告是由已确定的出资人通过各种媒介进行的有关产品(商品、服务和观点)的,通常是有偿的、有组织的、综合的、劝服性的非人员的信息传播活动。 • 广告的主体 出资人(sponsor)即广告主(advertiser),媒介(medium),受众(audience) • 广告的本质功能 是借助某种有广泛受众的媒介的力量,完成较低成本的用户接触(reach)

2021-11-03

计算广告学第二单元课件.pdf

什么是广告? • 广告(Advertising)的定义 广告是由已确定的出资人通过各种媒介进行的有关产品(商品、服务和观点)的,通常是有偿的、有组织的、综合的、劝服性的非人员的信息传播活动。 • 广告的主体 出资人(sponsor)即广告主(advertiser),媒介(medium),受众(audience) • 广告的本质功能 是借助某种有广泛受众的媒介的力量,完成较低成本的用户接触(reach)

2021-11-03

基于大数据的用户画像方法研究综述.pdf

在大数据时代,社交网络以及以社交为基础的互联网应用不断迅猛发展,其背后带来的是数据的 爆炸式增长。对用户数据的采集以及合理的推荐,成为了各大网站的重要课题。用户画像提取过程,是个性 化推荐的关键步骤。随着社交网络的快速发展,媒体类型不断丰富,用户参与门槛的不断降低。用户表达的 数据模态逐渐呈现多样,为用户画像提取提供了广阔空间。随着用户画像数量的不断递增,利用大数据技术, 有效的存储、计算用户画像,逐渐成为研究热点。本文首先介绍了相关的背景,然后介绍了基于大数据的用 户画像构建方法,并介绍了不同数据集中的用户画像的应用,最后本文对基于大数据的用户画像方法进行了 总结和展望,指明了该技术当前存在的问题与发展趋势。

2021-10-31

外卖广告机制的理论和实践.pdf

外卖广告机制的理论和实践.pdf

2021-10-31

深度学习在美团搜索广告排序的应用实践.pdf

在计算广告场景中,需要平衡和优化三个参与方——用户、广告主、平台的关 键指标,而预估点击率CTR(Click-through Rate)和转化率CVR (Conversion Rate)是其中非常重要的一环,准确地预估CTR和CVR对于提 高流量变现效率,提升广告主ROI(Return on Investment),保证用户体验 等都有重要的指导作用。 传统的CTR/CVR预估,典型的机器学习方法包括人工特征工程 + LR (Logistic Regression)[1]、GBDT(Gradient Boosting Decision Tree)[2] + LR、FM(Factorization Machine)[3]和FFM(Field-aware Factorization Machine)[4]等模型。相比于传统机器学习方法,深度学习模 型近几年在多领域多任务(图像识别、物体检测、翻译系统等)的突出表现, 印证了神经网络的强大表达能力,以及端到端模型有效的特征构造能力。同时 各种开源深度学习框架层出不穷,美团集团数据平台中心也迅速地搭建了GPU 计算平台,提供GPU集群,支持TensorFlow、MXNet、Caffe等框架,提供 数据预处理、模型训练、离线预测、模型部署等功能,为集团各部门的策略算 法迭代提供了强有力的支持。 美团海量的用户与商家数据,广告复杂的场景下众多的影响因素,为深度学习 方法的应用落地提供了丰富的场景。本文将结合广告特殊的业务场景,介绍美 团搜索广告场景下深度学习的应用和探索。主要包括以下两大部分: · CTR/CVR预估由机器学习向深度学习迁移的模型探索 · CTR/CVR预估基于深度学习模型的线下训练/线上预估的工程优化

2021-10-31

知乎推荐算法和帐号运营2021.pdf

1.威尔逊算法对排名和推荐的影响,知乎的算法是为了优质内容获得更多 的曝光而服务的。 • 收藏 • 感谢 • 盐值 • 成为优秀回答者 • 成为付费会员 • 提升盐值 • 实名认证 2.新账号的运营准备工作

2021-09-16

Adaptive Focus for Efficient Video Recognition.pdf

本次研究工作为提高计算效率,作者对视频识别的空间冗余进行了探讨。发现在视频的每一帧中,信息量最大的区域通常是一个小的 image patch,在不同的帧中平稳地移动。因此,作者将 patch 定位问题建模为一个连续的决策任务,并提出一种基于强化学习的高效空间自适应视频识别方法:AdaFocus。并在 ActivityNet, FCVID, Mini-Kinetics, Something-Something V1&V2 5 个基准数据上进行了实验,得出比竞争性基线明显更有效率的结果。

2021-08-23

Linux教程.ppt

1.x Linux初步与环境安装。 2.x 常用命令介绍。 3.x vi/vim文本编辑器介绍。 4.x 用户管理。 5.x 进程管理。 6.x 系统文件构成。 7.x 软件包管理。 8.x Shell编程。

2021-08-20

NLP中的注意力机制.pptx

深度学习中的注意力可以广义地解释为重要性权重的向量:为了预测一个元素,例如句子中的单词,使用注意力向量来估计它与其他元素的相关程度有多强,并将其值的总和作为目标的近似值。

2021-08-14

循环神经网络语言模型.pdf

循环神经网络(Recurrent Neural Network, RNN)是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network) [1] 。 对循环神经网络的研究始于二十世纪80-90年代,并在二十一世纪初发展为深度学习(deep learning)算法之一 [2] ,其中双向循环神经网络(Bidirectional RNN, Bi-RNN)和长短期记忆网络(Long Short-Term Memory networks,LSTM)是常见的循环神经网络 [3] 。 循环神经网络具有记忆性、参数共享并且图灵完备(Turing completeness),因此在对序列的非线性特征进行学习时具有一定优势 [4] 。循环神经网络在自然语言处理(Natural Language Processing, NLP),例如语音识别、语言建模、机器翻译等领域有应用,也被用于各类时间序列预报。引入了卷积神经网络(Convolutional Neural Network,CNN)构筑的循环神经网络可以处理包含序列输入的计算机视觉问题。

2021-08-14

神经网络语言模型.pdf

词向量模型应用 • 利用词向量的语言学特性完成任务 分布假说:语义相似的词,其词向量空间距离更相近 语义相关性、同义词检测、单词类比 • 将词向量作为特征,提高自然语言处理任务的性能 使用静态词向量,在模型训练过程中,只调整模型参数,不调整入词向量 基于平均词向量的文本分类、命名实体识别等 • 将词向量作为神经网络的初始值(动态词向量),提升神经网络模型的优化效果 使用动态词向量,模型训练过程中会调整词向量的初值 基于卷积神经网络的文本分类、词性标注

2021-08-14

深度学习与问答系统.pdf

在知识工程、互联网以及自然语言处理技术的推动下,问答系统 取得了一定进展 数据源:从限定领域向开放领域发展,从小规模向海量发展  提问类型:从受限类型向开放类型发展  参与者:领域专家到普通用户,门槛越来越低  知识贡献:从个人独享到大众知识分享

2021-08-14

深度学习与情感分析.pdf

情感分析是挖掘人们对物品、服务、组织、个人、事物、事件、话题及它们 属性的观点、情感、评价、态度和情绪等 对文本中蕴含的情感进行分析、处理、归纳和推理, 可以预测用户行为和做出应对策略。 互联网上蕴含着丰富的情感信息,其巨大价值引起了科技界、企业界 和各国政府的高度重视,诸多国家和国际组织已将情感分析研究提升 到国家和国际重大战略层面。

2021-08-14

当代大学生的就业与成才.doc

摘要:当今时代,经济全球化进程日益加快,科学技术发展迅猛异常,知识经济浪潮汹涌,给大学生的就业以及职业发展既带来了机遇,也提出了挑战。任何一名大学生在规划职业生涯时,都应考虑现实的外部条件。社会经济的发展,对人才素质的要求越来越高,给大学生的职业发展提出了新的要求。因此,大学生要勇于正视社会的机遇与挑战,正确认识、准确把握大学生就业形势,了解职业发展的趋势,树立正确的择业观,为选择并迈向正确的职业发展道路奠定牢固基础。 关键字:大学生择业观 个人生涯设计

2021-08-14

电信运营-计费管理系统的设计与实现.ppt

XX电信运营商新增一项Open Lab(开放实验室)出租业务,即该电信运营商提供基于Unix平台的实验室环境,选择使用这种业务的用户能够远程登录到实验室中做基于这个实验室环境的一些工作和实验。运营商希望借助先进的计算机技术对访问实验室的用户进行管理和计费,由此实现对此项业务运营的支持与管理。本项目主要包括以下子系统: 采集系统 整合系统 用户管理系统 资费管理系统 管理员管理系统 帐单查询系统 帐务查询系统 用户自服务系统 权限管理系统

2021-08-14

SQL Server数据库实验_存储过程与触发器设计.docx

实验5.1 存储过程的建立与使用 一、实验目的 理解存储过程的概念、作用、建立和调用方法。 二、实验原理 使用CREATE PROCEDURE语句创建存储过程,ALTER PROCEDURE语句修改存储过程,DROP PROCEDURE语句删除存储过程,存储过程有不带参数的、有带输入参数的、有带输出参数(output)的,还可以有带返回值的。创建好的存储过程可以使用EXEC procedure_name语句执行。 实验5.2 触发器的建立与使用 一、实验目的 理解触发器的概念和作用;了解触发器的分类及触发条件;掌握触发器的定义及应用。 二、实验原理 1、 使用CREATE TRIGGER语句定义触发器,ALTER TRIGGER语句修改触发器,DROP TRIGGER语句删除触发器。 2、 触发器分AFTER/FOR和INSTEAD OF两种类型:AFTER/FOR类型的触发器是在相应的触发语句(insert、delete、update)执行完后被触发的。如果触发语句对应的表上有完整性约束,这些完整性约束必须不违背时,相应的触发语句才能执行,然后才能触发对应的AFTER/FOR类型的触发器。INSTEAD OF类型的触发器会在触发语句(insert、delete、update)执行之前被触发,并取代相应的触发语句。 3、 在表或视图上,每个INSERT、UPDATE或DELETE语句只能创建一个INSTEAD OF类型的触发器,无法为有外键约束且指定为级联删除或级联修改的表创建DELETE或UPDATE语句上的INSTEAD OF 类型的触发器。 SQL SERVER为每个触发器都创建了两个临时表INSERTED表和DELETED表,这两个表的逻辑结构与被触发器作用的表一样,用户可以读取这两个表的内容,但不能对它们进行修改,触发器执行完后,这两个表也会自动删除。当执行INSERT时,INSERTED表中保存要向表中插入的所有行;当执行DELETE时,DELETED表中保存要从表中删除的所有行;当执行UPDATE时,修改前的行保存在DELETED表中,修改后的行保存在INSERTED行中。

2021-08-11

SQL Server数据库实验_创建和修改数据表及数据完整性.doc

实验2 创建和修改数据表及数据完整性 一、实验目的 熟悉有关数据表的创建和修改等工作,理解数据库模式的概念,了解主键约束、外键约束、UNIQUE约束和CHECK约束的创建和应用。要求学生熟练掌握使用企业管理器和T—SQL语句CREATE TABLE、ALTER TABLE及DROP TABLE语句对数据表进行管理。 二、实验原理 在企业管理器中实现表的创建和修改等工作及使用T—SQL语句CREATE TABLE、ALTER TABLE及DROP TABLE来实现数据表的创建、修改及删除。 三、实验设备 安装有SQL SERVER 2000的计算机。 四、实验内容 示例是某公司的产品销售数据库company,company数据库中存在人事表employee、客户表customer、销售表sales、销售明细表sale_item、产品表product。

2021-08-11

SQL Server数据库实验_数据查询与更新_简单的单表查询.doc

一、实验目的 熟练掌握用SELECT语句实现简单的单表查询。掌握SELECT子句、FROM子句、WHERE子句及ORDER BY 子句的用法。 二、实验原理 用SELECT语句实现简单的单表查询。在SELECT子句中用TOP关键字来限制返回到结果集中的记录数目,用DISTINCT关键字从结果集中去掉重复的记录。WHERE子句中用关系比较符、[NOT] BETWEEN、[NOT] IN、LIKE、 IS [NOT] NULL及逻辑运算符构成查询条件,对结果集中的记录进行筛选。ORDER BY子句将根据查询结果集中一个或多个字段对查询结果进行排序。 三、实验设备 安装有SQL SERVER 2000的计算机。 四、实验示例 1.查找表中所有姓刘的职工的工号,姓名,部门,薪水 2.查找所有定单金额高于20000的所有客户编号 3.查找业务部或会计部的女员工的基本信息。 4.选取编号界于‘C0001’和‘C0004’的客户编号、客户名称、客户地址。 5.选取销售数量最多的前5条订单订单号、数量。

2021-08-11

SQL Server数据库实验_数据查询与更新_复杂的单表查询.doc

一、实验目的 熟练掌握SELECT查询语句中的Group by 子句、Having子句的用法,以及汇总函数的使用。 二、实验原理 在查询语句中用Group by子句进行分组; 用Having子句对分组进行筛选。 使用MAX(),MIN(),COUNT(),SUM(),AVG()等函数在查询结果集中生成汇总值。 三、实验设备 安装有SQL SERVER 2000的计算机。

2021-08-11

数据仓库与数据挖掘第一章Part1 Introduction DW.ppt

数据仓库和数据挖掘技术是基于大规模数据库的决策支持系统环境的核心。

2021-08-07

数据仓库与数据挖掘第二章Part2 ETL_AND_OLAP.ppt

基于SQL SERVER的数据仓库架构,Microsoft SQL Server 2012 Integration Services (SSIS) 平台可以生成高性能数据集成解决方案,其中包括为数据仓库提取、转换和加载 (ETL) 包 Microsoft SQL Server提供两种ETL方式: 1、导入和导出数据 2、SQL Server Data Tools

2021-08-07

数据仓库与数据挖掘第三章Part3 An Intruction to Data Mining.ppt

数据库中的知识发现(Knowledge Discovery in Database,简称KDD)是一个从数据库中挖掘有效的、新颖的、潜在有用的和最终可理解的模式的复杂过程。 1)数据是一组事实的集合,它可以来自不同的数据源,可以是规则数据,也可以是非规则数据。 2)模式是关于数据子集的某种语言描述的表达式或某种可应用的模型,又称为知识。 3)模式必须是有效的、新颖的、潜在有用的和最终可理解的,分别用可信度、新颖度、可用度和简单度对其进行评价

2021-08-07

数据仓库与数据挖掘第五章Part5 Clustering聚类.ppt

聚类分析是将物理的或者抽象的数据集合划分为多个类别的过程,聚类之后每个类别中任意两个数据样本之间具有较高的相似度,而不同类别的数据样本之间具有较低的相似度。

2021-08-07

数据仓库与数据挖掘第六章Part6_6_SVM支持向量机.ppt

支持向量机(Support Vector Machine,简称SVM )是由贝尔实验室研究者Vapnik等于1995年首先提出的一种新的机器学习理论。 SVM主要思想是针对两类分类问题,在高维空间中寻找一个超平面作为两类的分割,以保证最小的分类错误率。 SVM一个重要的优点是可以处理线性不可分的情况,在解决小样本、非线性及高维(避免维灾难)模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。 SVM独特的特点:使用训练集的一个子集来表示决策边界,该子集称作支持向量。

2021-08-07

数据仓库与数据挖掘第六章Part6_5_Rough_Set粗糙集.ppt

现实生活中有许多含糊现象并不能简单地用真、假值来表示﹐如何表示和处理这些现象就成为一个研究领域。早在1904年谓词逻辑的创始人G.Frege就提出了含糊(Vague)一词,他把它归结到边界线上,也就是说在全域上存在一些个体既不能在其某个子集上分类,也不能在该子集的补集上分类。

2021-08-06

数据仓库与数据挖掘第六章Part6_4_Genetic_Algorithm遗传算法.ppt

遗传算法(Genetic Algorithms,GA)是模拟生物在自然环境中的遗传和进化过程而形成的一种自适应全局优化搜索算法。它模拟了生物的繁殖、交配和变异现象,从初始的种群,产生一群更适应环境的后代。

2021-08-06

数据仓库与数据挖掘第六章Part6_3 Neural Network神经网络.ppt

人工神经网络(Artificial Neural Network,ANN)是对人类大脑系统特性的一种描述。简单地讲,它是一种数学模型,可以用电子线路来实现,用计算机程序来模拟,是人工智能的一种方法。神经网络通过对大量历史数据的计算来建立分类和预测模型。

2021-08-06

数据仓库与数据挖掘第六章Part6_2 Naive Bayes Bayesian networks朴素贝叶斯.ppt

贝叶斯分类是统计学方法。他们可以预测类成员关系的可能性,如给定样本属于一个特定类的概率。贝叶斯分类主要是基于贝叶斯定理,通过计算给定样本属于一个特定类的概率来对给定样本进行分类。

2021-08-06

数据仓库与数据挖掘第六章Part6_1 Decision Tree决策树.ppt

决策树(decision tree)类似于流程图的树结构,由一个根节点,一组内部节点和一组叶节点组成。每个内部节点(包括根节点)表示在一个属性上的测试,每个分枝表示一个测试输出,每个叶节点表示一个类,有时不同的叶节点可以表示相同的类。

2021-08-06

数据仓库与数据挖掘第六章Part6_0 Classification.ppt

分类是数据挖掘的基本功能之一。 分类问题是一个普遍存在的问题,有许多不同的应用: 根据Email的标题和内容过滤垃圾邮件 根据核磁共振扫描的结果区分肿瘤是良性或恶性 信用分级、市场调查、图像模式识别… …

2021-08-06

HTMLCSSJavaScript标准教程:实例版(第2版)习题参考答案.docx

HTML/CSS/JavaScript标准教程:实例版(第2版)习题参考答案,为每章选择题,填空题的参考答案。

2021-08-03

互联网简历撰写技巧.zip

【1】简历撰写技巧指导 【2】应届生标准简历示范(技术类) 【3】技术类简洁版简历模板 【4】互联网风格简历模板 【5】通用简洁版简历模板 【6】英文简历模板

2021-08-02

map-reduce.pdf

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。

2021-08-02

looklike.pdf

微信看一看的精选文章推荐大家应该都用过,微信团队在今年发表了一篇文章来专门介绍精选推荐的算法实现细节(Real-time Attention based Look-alike Model,简称RALM算法),这就是我们这篇文章要讲解的内容。基于这篇文章的描述,再结合自己的理解,我来带大家一起解读一下这篇基于look-alike模型的实时推荐算法的核心亮点。

2021-08-02

titanic.csv

机器学习泰坦尼克号数据集,Titanic - Machine Learning from Disaster Start here! Predict survival on the Titanic and get familiar with ML basics

2021-06-11

主流app描述信息,包含package_name,app_name,app_info等基本信息

主流app描述信息,包含package_name,app_name,app_info等基本信息

2021-04-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除