- 博客(1179)
- 资源 (42)
- 收藏
- 关注
原创 hive中文繁简转化opencc4j
toTraditional(char) 返回单个汉字对应的所有繁体字列表。traditionalList(String) 返回包含的繁体列表。toSimple(char) 返回单个汉字对应的所有简体字列表。simpleList(String) 返回包含的简体列表。isTraditional(String) 是否为繁体。toTraditional(String) 转为繁体。toSimple(String) 转为简体。
2022-12-12 20:32:59
1156
1
原创 NLP文章和视频违规声明原创案例集锦
同时以下情形不得声明原创,一经发现将取消文章原创标识,并且根据违规情况对其公众号予以相应处理。3、符合平台运营规范(如营销宣传内容及其他违法违规内容不在原创范围内)3、符合平台运营规范(如营销宣传内容及其他违法违规内容不在原创范围内)1、受著作权法保护(如公开性质内容不具备著作权,则不在原创范围内)1、受著作权法保护(如公开性质内容不具备著作权,则不在原创范围内)2、不得侵犯他人权益(如未经授权使用他人内容,则不在原创范围内)2、不得侵犯他人权益(如未经授权使用他人内容,则不在原创范围内)
2022-11-29 11:58:55
455
原创 hive构造UDF函数
1、创建一个project。2、建一个lib文件夹,放入hive-exec-0.13.0.jar,并在libraries中引入该jar包。3、在src目录下创建package,如com.abc。4、创建java文件,继承UDF,写功能代码。5、定义输出文件jar。6、最后执行build module。
2022-11-18 10:53:52
652
原创 以微博核心业务为例,解读如何仅用1台服务器支持百万DAU
近些年,各家公司都在不断推出各种新的 App,百万 DAU 成为各种 App 的最基本目标。本文将详解如何通过大规格服务器 +K8s 的方案简化这些新项目的成本评估、服务部署等管理工作,并在流量增长时进行快速扩容。同时,本文还介绍了微博核心业务采用此方案部署时遇到的问题以及对应的解决方案。
2022-11-04 20:21:30
444
原创 NLP时政有害信息的界定
1. 反对宪法确定的基本原则;2. 危害国家统一、主权和领土完整;3. 泄露国家秘密、危害国家安全或者损害国家荣誉和利益;4. 煽动民族仇恨、民族歧视,破坏民族团结,或者侵害民族风俗、习惯;5. 破坏国家宗教政策,宣扬邪教、迷信;6. 散布谣言,扰乱社会秩序,破坏社会稳定;7. 歪曲、丑化、亵渎、否定英雄烈士事迹和精神,侮辱、诽谤英雄烈士;8. 宣扬赌博、暴力、凶杀、恐怖或者教唆犯罪;9. 煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;10. 突破社会道德底线、制度底线的负面信息;
2022-10-31 11:01:58
486
原创 什么是https加密?
身份盗窃和浏览器警告越来越受到消费者的关注。没有为网站安装合适的SSL证书实现https加密会降低用户的信任度,导致客户流失,使在线成交率下降,从而对企业产生负面影响。在在线商务的领域里,信任就是一切。在保护客户信息安全的技术上投资,可以赢得客户的信任,而这是任何在网上做生意的公司或电子商务网站的关键因素,网站安装SSL证书实现https加密,可以有效地帮助建立客户信任度。
2022-10-28 20:55:14
267
原创 Shell中的括号、双括号、方括号和双方括号
首先在Shell中,括号表示条件测试方法。主要用在if-then、case等需要条件判断的语句结构中。最近在看bash,括号搞的我一头雾水,所以总结一下,理清思路!括号一般在命令替换的时候使用。双括号使用双括号,在比较过程中使用高级数学表达式注意,不需要将双括号中表达式里的大于号转义。这是双括号命令提供的另一个高级特性。方括号定义了测试条件。第一个方括号后和第二个方括号前都要加一个空格,否则会报错。方括号主要包括4类判断:2、字符串比较 比较 描述
2022-07-12 16:05:09
586
原创 shell 判断脚本执行是否成功 if [ $? -ne 0 ]
$?是shell变量,表示"最后一次执行命令"的退出状态.0为成功,非0为失败.
2022-07-12 15:35:56
3448
原创 NLP不良信息识别
不良信息包括但不限于:1. 标题党:使用夸张标题,内容与标题严重不符。2. 炒作负面话题:炒作绯闻、丑闻、劣迹等。3. 引战:制造事端或曲解原发内容本意,激化矛盾,引起不同群体相互攻击。4. 其他为获取流量和利益,侵害个人或单位合法权益的行为。宣扬仇恨是指用特定的生理、心理、地域、文化等属性区分出特定的人群加以标签化对立,并对此进行扩散传播,试图将对这一群体的排挤、贬低、歧视、攻击及伤害正当化、常规化的行为:1. 组织、煽动、引导不特定多数用户对具有以下类别的个体或群体的歧视、诽谤、侮辱、仇恨:
2022-06-08 21:29:31
953
1
原创 基于用户的协同过滤算法(二):用户相似度计算的改进
用户相似度计算的改进上一节介绍了计算用户兴趣相似度的最简单的公式(余弦相似度公式),但这个公式过于粗糙,本节将讨论如何改进该公式来提高UserCF的推荐性能。首先,以图书为例,如果两个用户都曾经买过《新华字典》,这丝毫不能说明他们兴趣相似,因为绝大多数中国人小时候都买过《新华字典》。但如果两个用户都买过《数据挖掘导论》,那可以认为他们的兴趣比较相似,因为只有研究数据挖掘的人才会买这本书。换句话说,两个用户对冷门物品采取过同样的行为更能说明他们兴趣的相似度。因此,John S. Breese在论.
2022-05-28 16:46:48
1209
2
原创 NLP内容质量识别
一、标题低质图文格式混乱或不美观,音画质量差等影响阅读体验。包含但不限于以下场景:图文低质的内容,包含但不限于以下场景: 排版混乱:文章乱码、无段落或无标点; 语意不明:病句或错别字较多、乱码符号,有碍于读者理解内容; 逻辑混乱:内容拼凑或重复,前后内容没有衔接,无关内容占比较大; 音画低质的内容,包括但不限于以下场景: 视频缩放画面:视频中角标/logo/字幕被剪切,导致显示不全,或画面中人物面部被部分剪切; 视频添加边框:视频添加边框且占比较大,或水印遮挡画面严重,无法识别
2022-05-19 23:42:00
768
1
原创 基于用户的协同过滤算法(一):余弦相似度
基于用户的协同过滤算法是推荐系统中最古老的算法。可以不夸张地说,这个算法的诞生标志了推荐系统的诞生。该算法在1992年被提出,并应用于邮件过滤系统,1994年被GroupLens用于新闻过滤。在此之后直到2000年,该算法都是推荐系统领域最著名的算法。本节将对该算法进行详细介绍,首先介绍最基础的算法,然后在此基础上提出不同的改进方法,并通过真实的数据集进行评测。
2022-05-15 18:49:42
1926
原创 linux服务器离线安装conda
问题背景服务器在无法联网的情况下,安装anaconda1、下载安装包https://docs.conda.io/en/latest/miniconda.html#linux-installers2、上传到服务器3、执行安装脚本sh Anaconda3-2021.11-Linux-x86_64.sh可以选择自定义Anaconda3的安装路径...
2022-05-05 23:52:24
1570
原创 停止正在运行的hadoop任务
查看正在运行的任务列表yarn application -list -appStates RUNNING停止任务yarn application -kill application_任务编号
2022-05-01 20:53:15
1709
原创 音乐推荐是推荐系统里非常特殊的领域
个性化推荐的成功应用需要两个条件。第一是存在信息过载,因为如果用户可以很容易地从所有物品中找到喜欢的物品,就不需要个性化推荐了。第二是用户大部分时候没有特别明确的需求,因为用户如果有明确的需求,可以直接通过搜索引擎找到感兴趣的物品。在这两个条件下,个性化网络电台无疑是最合适的个性化推荐产品。首先,音乐很多,用户不可能听完所有的音乐再决定自己喜欢听什么,而且每年新的歌曲在以很快的速度增加,因此用户无疑面临着信息过载的问题。其次,人们听音乐时,一般都是把音乐作为一种背景乐来听,很少有人必须听
2022-04-30 16:44:55
1694
原创 Hive MapReduce性能优化
一、Hive任务创建文件数优化1.1 Map端文件合并减少Map任务数量一般来说,HDFS的默认文件块大小是128M,如果在Hive执行任务时,发现Map端的任务过多,且执行时间多数不超过一分钟,建议通过参数,划分(split)文件的大小,合并小文件。如:set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;set mapreduce.input.fileinputformat.split.mi
2022-04-07 12:30:12
553
原创 Hadoop Shell命令
FS Shell调用文件系统(FS)Shell命令应使用bin/hadoop fs <args>的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定的默认scheme。一个HDFS文件或目录比如/parent/child可以表示成hdfs://nameno.
2022-03-15 15:26:10
285
原创 深度解析推荐系统的算法原理
推荐系统基于海量的物品数据的挖掘,通常由 召回层→排序层(粗排、精排、重排)组成,不同的层次的组成,其实也就是信息筛选的漏斗,这也是工程上效率的需要,把意向对象的数量从粗犷到精细化的筛选过程(这过程就像是找工作的时候,HR根据简历985/211粗筛出一部分,再做技能匹配及面试精准筛选,最终敲定合适的人选)
2022-03-02 22:48:00
308
原创 什么是倒排索引?
创建倒排索引,分为以下几步:1)创建文档列表:lucene首先对原始文档数据进行编号(DocID),形成列表,就是一个文档列表2)创建倒排索引列表然后对文档中数据进行分词,得到词条。对词条进行编号,以词条创建索引。然后记录下包含该词条的所有文档编号(及其它信息)。谷歌之父--> 谷歌、之父倒排索引创建索引的流程:1) 首先把所有的原始数据进行编号,形成文档列表2) 把文档数据进行分词,得到很多的词条,以词条为索引。保存包含这些词条的文档的编号信息。搜..
2022-02-27 11:48:26
577
原创 LeetCode No.202 快乐数
一、题目描述编写一个算法来判断一个数 n 是不是快乐数。「快乐数」 定义为:对于一个正整数,每一次将该数替换为它每个位置上的数字的平方和。然后重复这个过程直到这个数变为1,也可能是 无限循环 但始终变不到1。如果这个过程 结果为1,那么这个数就是快乐数。如果 n 是 快乐数 就返回 true ;不是,则返回 false 。示例 1:输入:n = 19输出:true解释:12 + 92 = 8282 + 22 = 6862 + 82 = 10012 + 02 + 02 =
2022-02-26 21:32:47
8119
原创 LeetCode No.234 回文链表
一、题目描述给你一个单链表的头节点 head ,请你判断该链表是否为回文链表。如果是,返回 true ;否则,返回 false 。示例 1:输入:head = [1,2,2,1]输出:true示例 2:输入:head = [1,2]输出:false提示:链表中节点数目在范围[1, 10^5] 内0 <= Node.val <= 9二、解题思路如果你还不太熟悉链表,下面有关于列表的概要讲述。有两种常用的列表实现,分别为数组列表和链表。如果我们想在列表中存
2022-02-13 17:15:27
282
原创 LeetCode No.225 用队列实现栈
一、题目描述请你仅使用两个队列实现一个后入先出(LIFO)的栈,并支持普通栈的全部四种操作(push、top、pop 和 empty)。实现 MyStack 类:void push(int x) 将元素 x 压入栈顶。int pop() 移除并返回栈顶元素。int top() 返回栈顶元素。boolean empty() 如果栈是空的,返回 true ;否则,返回 false 。注意:你只能使用队列的基本操作 —— 也就是push to back、peek/pop from ..
2022-02-12 19:17:38
257
原创 新浪新闻发布Z世代洞察报告:Z世代偏爱深入“吃瓜” 对元宇宙兴趣强烈
2021年12月14日,新浪新闻发布《走进自信的Z世代 2021新青年洞察报告》(以下简称报告),从人群特征、信息获取、生活消费、智能生活等多个维度,全面洞察Z世代的兴趣偏好等特征。据国家统计局、CNNIC数据显示,截至2021年6月,95、00后Z世代活跃用户规模已超2.2亿,约占全体移动网民的22%。报告认为,作为互联网原住民,Z世代新青年身上散落着独特的网络特征和亚文化符号,信息获取、消费决策、生活空间等更具互联网特征,也更加注重个性化和互动体验。内容喜好多元 Z世代最爱吃瓜 且要把瓜吃透
2022-01-03 20:36:50
862
原创 常见用户行为分析模型解析:点击分析模型
点击分析模型在各行业内数据分析应用较为广泛,是重要的数据分析模型之一。点击图与热力图有何差异?热力图是以特殊高亮的形式显示访客热衷的页面区域和访客所在的地理区域的图示,如图。同样,点击图也是特殊高亮的颜色形式的显示。不同的是,点击图是点击分析方法的效果呈现,在用户行为分析领域,点击分析被应用于显示页面或页面组(结构相同的页面,如商品详情页、官网博客等)区域中不同元素点击密度的图示。包括元素被点击的次数、占比、发生点击的用户列表、按钮的当前与历史内容等因素。图1 点击图 (图片来源于网络).
2021-12-12 10:26:40
933
原创 常见用户行为分析模型:用户分群
用户分群是企业精细化,数据化运营的第一步。用户分群数据分析方法是进行用户画像的关键数据分析模型,这是企业进行数据分析、精细化运营的第一步。用户分群即用户信息标签化,通过用户的历史行为路径、行为特征、偏好等属性,将具有相同属性的用户划分为一个群体,并进行后续分析。漏斗分析关注阶段差异,用户分群关注群体差异前面的文章我们讲了漏斗分析模型。通过漏斗分析模型,运营人员可以看到,用户在不同阶段所表现出的行为是不同的,譬如新用户的关注点在哪里?已购用户什么情况下会再次付费?然而,由于群体特征不同,行为会.
2021-12-12 10:24:18
1551
原创 常见用户行为分析模型:用户行为路径分析模型
用户行为路径分析同样是重要的数据分析模型,它为企业实现理想的数据驱动与布局调整提供科学指导,对精准勾勒用户画像也有重要参考价值。用户访问APP/网络,如同参观画展,观众是感受和传达画展参展方和展品的目的受众体,图画的展现布局不同,每一位观众根据自身喜好形成特有的参观顺序。为让观众沿着最优访问路径前进,需要策展者结合观众需求进行布局调整。这种自主式的数据分析方法,让业务人员都能科学进行数据分析。什么是用户行为路径?用户路径分析,顾名思义,用户在APP或网站中的访问行为路径。为了衡量网站优化的效果或.
2021-12-12 10:22:04
2172
原创 常见用户行为分析模型:漏斗分析模型
用户行为分析之漏斗分析模型是企业实现精细化运营、进行用户行为分析的重要数据分析模型,其精细化程度影响着营销管理的成败,以及用户行为分析的精准度。现代营销观念认为:“营销管理重在过程,控制了过程就控制了结果。”用户行为分析之漏斗分析模型是企业实现精细化运营、进行用户行为分析的重要数据分析模型,其精细化程度影响着营销管理的成败,以及用户行为分析的精准度。粗陋的漏斗分析模型因为过程管理不透明、数据分析不精细、用户行为分析不科学而造成结果失控。因此,我们经常能够听到一些产品经理的抱怨不绝于耳:从启动 APP.
2021-12-12 10:18:27
1059
原创 常见用户行为分析模型:用户留存分析模型
在用户行为领域,通过数据分析方法的科学应用,经过理论推导,能够相对完整地揭示用户行为的内在规律。基于此帮助企业实现多维交叉分析,帮助企业建立快速反应、适应变化的敏捷商业智能决策。结合近期的思考与学习,将为大家陆续介绍不同针对用户行为的分析模型。本文主要介绍用户留存分析。据某第三方平台近期调研结果显示,在金融创业领域,2013 年一家互联网金融创业公司的投资获客成本区间为 300 – 500 元,而 2016 年则涨为 1000 – 3000 元;在电商领域,新用户的获取成本,是维护一个老用户的 3 倍到
2021-12-12 10:12:21
1504
原创 常见用户行为分析模型:行为事件分析模型
在用户行为领域,通过数据分析方法的科学应用,经过理论推导,能够相对完整地揭示用户行为的内在规律。基于此帮助企业实现多维交叉分析,帮助企业建立快速反应、适应变化的敏捷商业智能决策。结合近期的思考与学习,将为大家陆续介绍不同针对用户行为的分析模型。本文主要介绍行为事件分析。一、什么是行为事件分析?行为事件分析法来研究某行为事件的发生对企业组织价值的影响以及影响程度。企业借此来追踪或记录的用户行为或业务过程,如用户注册、浏览产品详情页、成功投资、提现等,通过研究与事件发生关联的所有因素来挖掘用户行为事件背
2021-12-12 10:07:57
1104
原创 常见用户行为分析模型:归因分析
在用户行为分析领域,数据分析方法的科学应用结合理论推导,能够相对完整地揭示用户行为的内在规律。而归因是精细化运营必不可少的利器,归因的目的,终究是为了提升运营转化与收入增长。本文详细介绍了归因分析模型的概念和应用场景,与大家分享。在 PC 互联网时代,一个网站吸引新用户的主要方式之一就是投放线上广告。而同样一篇广告可以投放至多个渠道,一个用户也可能在不同渠道商多次看到广告才发生购买。这时候用户虽然是最后一次看到广告才发生点击,但前面的几次曝光 可能给用户留下了印象,建立了心理认知,因此对用户的本次点击亦
2021-12-11 11:27:38
2398
原创 MAC安装Anaconda3 Python3.7和Python2.7共存
1、conda安装python2.7//安装python2.7conda create -n py27 python=2.7 //会提示需要下载相应的py2.7安装包,输入y回车即可。$ conda activate py27 //激活虚拟环境$ conda deactivate //退出虚拟环境conda info -e #查看已有的环境conda remove -n env_name --all #删除环境conda install -n py27 anaconda #在...
2021-12-06 18:47:35
2156
原创 linux usr/bin/和 usr/local/bin之间的关系,什么是软链接?
/usr/bin 和/usr/local/bin 之间的区别在于,usr/bin里面存的是系统的一些应用程序的打开方式,而 /usr/local/bin存的应该是用户自己安装的应用程序;也就是说,我的python3.5应该安装在 /usr/local/bin;另外什么叫做软连接,它就相当于一个快捷方式;/usr/bin里面存的东西,就相当于 exe的一个启动程序;...
2021-12-06 18:10:16
2654
原创 机器学习:SGD随机梯度下降法
1.梯度下降 1)什么是梯度下降? 因为梯度下降是一种思想,没有严格的定义,所以用一个比喻来解释什么是梯度下降。 简单来说,梯度下降就是从山顶找一条最短的路走到山脚最低的地方。但是因为选择方向的原因,我们找到的的最低点可能不是真正的最低点。如图所示,黑线标注的路线所指的方向并不是真正的地方。 既然是选择一个方向下山,那么这个方向怎么选?每次该怎么走? 先说选方向,在算法中是以随机方式给出的,这也是造成有时候走...
2021-11-07 09:21:48
1398
原创 NLP面试 Transformer101问答
1,请阐述Transformer能够进行训练来表达和生成信息背后的数学假设,什么数学模型或者公式支持了Transformer模型的训练目标?请展示至少一个相关数学公式的具体推导过程。2,Transformer中的可训练Queries、Keys和Values矩阵从哪儿来?2,Transformer中为何会有Queries、Keys和Values矩阵,只设置Values矩阵本身来求Attention不是更简单吗?3,Transformer的Feed Forward层在训练的时候到底在训练什么?4
2021-11-06 23:06:44
592
计算广告学第六单元课件.pdf
2021-11-03
计算广告学第五单元课件.pdf
2021-11-03
计算广告学第四单元课件.pdf
2021-11-03
计算广告学第三单元课件.pdf
2021-11-03
计算广告学第二单元课件.pdf
2021-11-03
深度学习在美团搜索广告排序的应用实践.pdf
2021-10-31
知乎推荐算法和帐号运营2021.pdf
2021-09-16
Adaptive Focus for Efficient Video Recognition.pdf
2021-08-23
Linux教程.ppt
2021-08-20
NLP中的注意力机制.pptx
2021-08-14
神经网络语言模型.pdf
2021-08-14
深度学习与问答系统.pdf
2021-08-14
深度学习与情感分析.pdf
2021-08-14
当代大学生的就业与成才.doc
2021-08-14
电信运营-计费管理系统的设计与实现.ppt
2021-08-14
SQL Server数据库实验_存储过程与触发器设计.docx
2021-08-11
SQL Server数据库实验_创建和修改数据表及数据完整性.doc
2021-08-11
SQL Server数据库实验_数据查询与更新_简单的单表查询.doc
2021-08-11
SQL Server数据库实验_数据查询与更新_复杂的单表查询.doc
2021-08-11
数据仓库与数据挖掘第二章Part2 ETL_AND_OLAP.ppt
2021-08-07
数据仓库与数据挖掘第三章Part3 An Intruction to Data Mining.ppt
2021-08-07
数据仓库与数据挖掘第五章Part5 Clustering聚类.ppt
2021-08-07
数据仓库与数据挖掘第六章Part6_6_SVM支持向量机.ppt
2021-08-07
数据仓库与数据挖掘第六章Part6_5_Rough_Set粗糙集.ppt
2021-08-06
数据仓库与数据挖掘第六章Part6_4_Genetic_Algorithm遗传算法.ppt
2021-08-06
数据仓库与数据挖掘第六章Part6_3 Neural Network神经网络.ppt
2021-08-06
数据仓库与数据挖掘第六章Part6_2 Naive Bayes Bayesian networks朴素贝叶斯.ppt
2021-08-06
数据仓库与数据挖掘第六章Part6_1 Decision Tree决策树.ppt
2021-08-06
数据仓库与数据挖掘第六章Part6_0 Classification.ppt
2021-08-06
HTMLCSSJavaScript标准教程:实例版(第2版)习题参考答案.docx
2021-08-03
互联网简历撰写技巧.zip
2021-08-02
map-reduce.pdf
2021-08-02
looklike.pdf
2021-08-02
titanic.csv
2021-06-11
主流app描述信息,包含package_name,app_name,app_info等基本信息
2021-04-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅