自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 资源 (3)
  • 收藏
  • 关注

原创 R重写mahout中user-based协同过滤算法-注释篇

声明:本篇是基于张丹《R的极客思想》书本中的内容,但张丹在代码中并未添加过多注释,本人最近在研究推荐系统,并将张丹的代码做了一些改动和详细注释贴上来供大家学习交流#user-based 协同过滤推荐,3个近邻,2个推荐结果#1.构建数据模型FileDataModel<-function(file_name){ user=unique(file_name$buyer_member...

2019-01-15 20:36:37 795 2

原创 HTTPS加密原理

1.HTTPS对称加密服务器每次发送真实数据前,会先生成一把密钥传输(以明文方式传输密钥容易被劫持)给客户端,服务器给客户端发送的真实数据会先用这把密钥进行加密,客户端收到加密数据后再用密钥进行解密(客户端给服务器发送数据同理)2.HTTPS非对称加密客户端和服务器都有两把密钥,一把公钥一把私钥(公钥加密的数据只有私钥才能解密,私钥加密的数据只有公钥才能解密),服务器在给客户端发送...

2019-01-02 16:16:35 6441 4

原创 词向量与句向量概述

比较常见的词向量表示方式:glove、fasttext、wordRank、tfidf-BOW、word2vec词向量一般看作是文档特征,不同词向量有不同用法,主要有四类词向量:1.hash算法及衍生;2.BOW算法延伸;3.word2vec延伸;4.LDA主题延伸    一个词一列向量-----> hash算法--->word2vec(考虑上下文语境)    一个词一个向量...

2019-01-22 11:05:07 4094

原创 IV及WOE值详解-附R源码实现

1.IV值用途IV全称Information Value即信息价值或信息量。在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如有200个候选自变量,通常情况下不会直接把200个变量直接放到模型中去进行拟合训练,而会用一些方法从200个自变量中挑选一些放进模型,形成入模变量列表。挑选入模变量过程需要考虑的因素有很多,比如变量预测能力、变量间相关性、变量简单性(容易生成使...

2019-01-16 20:51:22 3539

原创 熵值法解析-附R代码

 熵的概念源于热力学,是对系统状态不确定性的一种度量。在信息论中,信息是系统有序程度的一种度量,而熵是系统无序程度的一种度量,两者绝对值相等,但符号相反。根据此性质可利用评价中各方案的固有信息,通过熵值法得到各个指标信息熵,熵值越小-无序程度越低-指标权重越小熵是不确定性的度量(可用于判断一个事件的随机性+无序程度),如果用表示第j个信息的不确定性程度,则整个信息(设有n个)的不确定性度量可以...

2019-01-15 17:41:51 11035 7

原创 协同过滤-Collaborative filtering

一、协同过滤协同过滤一般是在海量用户中发掘出一部分与目标用户特征比较类似的,在协同过滤中,这些用户与目标用户成为邻居,然后依据他们喜欢的其他东西组织成一个排序的目录推荐给目标用户协同过滤要考虑:1.如何确定一个用户和目标用户相似;2.如何将邻居的喜好组织成一个排序目录收集用户偏好:可通过用户行为判断偏好,如评分(传统星级评分制)、投票、转发、评论(用户情感)、点击、购买;同时也可对每个...

2019-01-10 19:30:10 364

转载 今日头条的个性化推荐

一、今日头条个性化推荐流程服务器1000台,代码实现爬虫功能,在其他传媒网站和门户上抓取各种信息,如果在网站上抓取到纸媒内容,则优先从纸媒门户上抓取信息;抓取信息后,对有价值信息进行分析归类;推送到有感兴趣的头条客户端;用户注册或登录时,通过数据挖掘分析,推荐感兴趣的信息;推送后根据用户体验(阅读时间、评论)判断信息是否符合客户需求,再进一步调整推送信息内容;敏感信息审查;页面转码(对纸媒或网...

2019-01-10 18:00:11 2242

转载 美团推荐算法实践

2019-01-10 更新,对部分文字进行解释便于理解互联网的深入发展产生了严重的信息过载,如果不采取一定手段,用户很难从如此多的信息流中找到对自己有价值的信息。解决信息过载:1.搜索,用户有明确的信息需求意图,将意图转换成几个简短的词或词语的组合(query)-提交给搜索引擎-海量信息库检索出与query相关的信息返回;2.推荐,用户意图不明确或很难用清晰的语义表达,甚至用户自己都不清楚需求...

2019-01-09 17:48:30 3244

原创 XPath表达式

XPath表达式是查询标记语言的方法(是选取XML或HTML中节点node的方法,节点通常是指XML/HTML中元素),XPath通过路径表达式(Path Expression)来选择节点信息,跟文件系统路径一样用/符号来分割路径同一个节点有绝对路径与相对路径两种写法;1.绝对路径必须以/起首,后面紧跟根节点/step/step/...;2.相对路径step/step/.... 当...

2019-01-04 11:22:43 1099

原创 XML基础

XML(extensible Markup Language)全称可扩展标记语言,首先它与HTML一样是标记语言,那就具有标记语言全部特征。同时XML是被设计用来传输与存储数据,这和HTML用来显示数据大不一样,所以XML又有网络数据交换最流行格式的美誉编写XML文档需自行定义标签,XML被设计为具有自我描述性。作为一种纯文本格式,任何有处理纯文本能力的软件都可以用来处理XML语法规则...

2019-01-04 10:42:22 163

原创 HTML基础

网络前端最核心三大技术HTML、CSS、JavaScript。HTML全称超文本标记语言(hyper text Markup language)是一种在网页上展示内容的语言(非编程语言,是一种描述内容并定义其表征的标记语言)。HTML是树状结构,从内容上就是标签、元素、属性,需注意HTML注释方式,保留字符和文档定义1.标签、元素和属性标签指的是会指定其中包装的文本作为在浏览器分页的标题栏...

2019-01-03 20:46:35 126

原创 URL编码、解码

url标准中只允许一部分ASCII字符,如英文字母、数字字符、部分符号等。其他字符如-*汉字等,应被编码为%+两位的十六进制表示,任何单字节字符都可被编码(多字节是逐字节编码)。保留字符(! $ & ' ( ) * + , ; = : / ? @ # [ ])是否编码1.R语言实现#repeated-已经编码过的url是否被再次编码URLencode(URL,reserved=...

2019-01-03 19:52:20 267

原创 模型评估方法-K-S值-附R实现代码

2019-01-18修改,新增ks值的R语言实现风控模型中计算K-S值方法:K-S值主要验证风控模型对违约对象的区分能力,通常是在风控模型预测完全体样本的风控评分后,将全体样本按是否违约分为两部分,然后用K-S值检验两组样本的风控评分是否有显著差异将全体样本按风控评分从低到高排序均分成十组,分别计算每组的实际好样本数、实际坏样本数、累计好样本数、累计坏样本数、累计好样本数占比(总好样本...

2019-01-02 18:55:57 2710 1

原创 Python条件、循环和其他语句概述

1.序列解包当函数或方法返回元组(或其他序列或可迭代对象时),可使用该特性#分别赋值x,y,z=1,2,3x,y=[1,2]x,y=(1,2)x,y={'ti':2,'an':4} #x:'ti' y:'an',只返回键#交换变量值x,y=y,xprint(x,y,z) #2 1 3#定义字典并随机弹出键值对,序列解包给m,nx=dict()x[12]=['...

2019-01-01 18:07:23 159

JS混淆解密并美化过的getkey

配合我的博客文章使用【Python与R协同完成【中国裁判文书网】文书内容爬取】

2018-07-14

getkey JS文件

配合我的博客文章使用【Python与R协同完成【中国裁判文书网】文书内容爬取】

2018-07-14

base64 JS文件

配合我的博客文章使用【Python与R协同完成【中国裁判文书网】文书内容爬取】

2018-07-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除