![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
学习
菜鸡程序员丶
这个作者很懒,什么都没留下…
展开
-
Adam算法
原创 2020-03-27 17:31:08 · 849 阅读 · 0 评论 -
Python分箱统计元素个数
我们经常会在数据分析中碰到这样的一些问题:这组数据都有哪些值?这些值又各自出现了多少次?数据如果不多,我们直接掐指一算也就搞定了。如果数据多指头到不够用,那怎么办呢?在pandas中,应对频数统计,我们就不得不谈一谈value_counts()了。一、离散型数据对于离散型数据,我们可以通过value_counts()的方法来统计各个离散值的频数情况,如下图我们先构造一个Series:...原创 2020-03-16 14:32:56 · 2310 阅读 · 0 评论 -
lgb参数
参数params = { # default=0.1, type=double, alias=shrinkage_rate 'learning_rate': 0.2, # default=regression,任务类型 'application': 'binary', # 叶子节点的数量 'num_leaves': 31, ...原创 2019-11-21 00:27:18 · 3082 阅读 · 0 评论 -
jieba分词关键词抽取
1 简介关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这篇论文的词语。因此,目前依然可以在论文中看到关键词这一项。除了这些,关键词还可以在文本聚类、分类、自动摘要等领域中有着重要的作用。比如在聚类时将关键词相似的几篇文档看成一个团簇,可以大大提高聚类算法的收敛速度;从某天所有的新闻中提取出这些新闻...原创 2019-10-18 23:05:41 · 613 阅读 · 0 评论 -
基于随机游走的personalrank算法实现推荐
今天我们讲一个下怎么使用随机游走算法PersonalRank实现基于图的推荐。在推荐系统中,用户行为数据可以表示成图的形式,具体来说是二部图。用户的行为数据集由一个个(u,i)二元组组成,表示为用户u对物品i产生过行为。本文中我们认为用户对他产生过行为的物品的兴趣度是一样的,也就是我们只考虑“感兴趣”OR“不感兴趣”。假设有下图所示的行为数据集。其中users集U={A, B, C},...转载 2019-08-13 16:13:46 · 299 阅读 · 0 评论 -
元数据
元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。都柏林核心集(Dublin Core Metadata Initiative,...原创 2019-09-16 11:59:00 · 171 阅读 · 0 评论 -
探索推荐引擎内部的秘密
https://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy1/index.html?ca=drs-原创 2019-09-19 18:14:07 · 69 阅读 · 0 评论