自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

转载 用户画像之标签聚类

上次把用户画像方面的内容开了一个头,讲了关于标签权重的计算方法,这次就聊聊标签聚类的方法。继上一篇中提到的用户标签表,存储了用户在平台上每次操作(来自日志数据)、购买(来自业务数据)等行为带来的标签。随着时间的累计,各用户在平台上积累的标签数以亿计,如何对这些不同类型的标签进行归类,找到每个标签所属的某一类别,是本次讲述的重点。head标签作为一个容器,主要包含了用于描述 HTML 文档自身信息(元数据)的标签,这些标签一般不会在页面中被显示出来。用户标签表结构长这个样子(字丑 ╥﹏╥)

2023-06-11 15:36:57 276

转载 用户画像之标签权重算法

对上面的图来说,用户1身上打了标签A 5个,标签B 2个,标签C 1个,那么用户1身上的A标签TF=5/(5+2+1)。

2023-06-11 15:36:24 251

转载 用户画像之数据质量管理

各种类型的标签每天加工的数据成百上千万条,数据分析人员不会每天对这些数据的质量进行核查,去发现每类标签的数量是否有异常情况,但是当应用的过程中使用异常数据将会导致分析结论的误差,那么如何高速、有效地对用户画像数据的质量进行管理?大家好,今天和大家分享一下用户画像数据质量管理这块的内容。数据运营人员可以通过设定画像各业务表数据监控范围,当每天跑ETL出现异常变动时,通过统计每类标签的总量变动较大时,发送邮件让数据运营的人员接收,然后查找原因进行定位。

2023-06-11 15:35:51 166

转载 生命科学的领地,现在深度学习来了

他们另辟蹊径,正在转向测量一些生物学家没有意识要测量的图像,并记录和组合视觉特征, 如 对DNA 染色, 细胞器结构和空白空间的质量产生成千上万的特征进行记录和组合, 发现其中任何一个都可以发现更多、更新的内容。他们的算法可以用来预测哪些小分子可能与特定的蛋白质相互作用,许多工作都是以生成蛋白质为目标的,但是不用已知的分子粘合剂。和任何计算生物学技术一样,算法产生的结果,只能保证不比输入数据差。在新药研发过程中,深度学习算法的作用是解决分类问题:筛选药物分子的形状和氢键等特征,以确定标准,列出潜在的药物。

2023-06-11 15:34:30 144

转载 生长与设计—复杂性视角下的智慧城市

揭示影响城市演化的简单规律。

2023-06-11 15:33:26 87

转载 关于深度神经网络压缩(下)

一般的CNN网络中,一个完整的卷积层是按照1)卷积,2)Batch Normalize,3)激活,4)池化这样的顺序进行的,然而对二值化后,每层的激活值都是二值的,对二值数组做MaxPool后,大部分值都会变成+1,这样数据信息就丢失了,所以XNOR-net做了个调整,将池化放在卷积之后,而把Batch Normalize用在输入数据上。通过二值化,原先的卷积操作中的乘法,都可以转换成二值位运算的异或操作和操作,这与BinaryNet思路也是一样的,只不过现在所有地方都二值化了,都可以这样优化计算了。

2023-04-30 14:20:26 94

转载 关于深度神经网络压缩(上)

这一步里面还有一个稀疏网络权重表达的技巧,一般来说表达一个稀疏数组是(index, value)这样成对的值来表示,对应于我们的权重数组就是一个index,一个weight,数组比较大,所以index至少得是整型(int)的,一个index需要32个bit,文章巧妙地采用了相对索引来表达(图 3),也就是每次存储原先前后两个index的差值,这个值我们可以用比较小的数据类型来存,比如途中用3bit(0-8),当然差值超过8时要补上一个0,这样index的字节数就得到了压缩。

2023-04-30 14:17:32 148

转载 快速入门这个速度远超Python的科学计算语言

Julia的基础库大部分由纯Julia语言编写,但是也集成了在特定领域(如线性代数,随机数生成,信号处理和字符串处理)很多成熟的库。head标签作为一个容器,主要包含了用于描述 HTML 文档自身信息(元数据)的标签,这些标签一般不会在页面中被显示出来,主要告知搜索引擎本页面的关键字以及对应网址,在SEO中传递相关权重起到非常重要的作用。Julia并不会强加给用户任何一种特别的并行范式,而是提供一系列的分布式计算的关键组件,使得其足够灵活去支持多种并行方案,并且允许用户增加更多。

2023-04-30 14:16:18 126 1

转载 全息计算打造“公司大脑”;简单规则驱动复杂系统 AISociety第六期回顾

用人体做比喻,扫描器把一个人身体的每秒每个原子的数据都实时传到云端,就是现在说的大数据,能做非常多的单点智能。而如果未来有一种更高能的扫描器,不仅扫描身体的大数据,而且能把身体的运行规律和机制实时扫描,记录每个原子之间如何交互,记录蛋白质、细胞、器官的交互,那就不再是简单的大数据,而是人体的数字化的复制和克隆。但是,抛开那些“形”,如果能把一个企业的“神”,运行规律和数据结合起来,塑造一个全息计算的模型,就能在模型上开启很多全新的想象,能把所有单点的智能连接起来,形成一个真正的拥有整体智能的大脑。

2023-04-30 14:13:33 159 1

转载 元胞自动机揭示交通瘫痪成因:车多路窄惹的祸

如果在这样的时候,对交通出行的需求仍在持续的增加(对于模拟实验而言就是向道路网络中加入更多的车辆),研究者发现:不再能观测到车辆驶离交通网络,换句话说,几乎每一个人都堵在了道路上,几乎没有人能够到达目的地(离开道路网络)。在先前的研究中已经发现,虽然城市会出现交通拥堵的,但是在大多数的时候都能够快速恢复,不会出现交通大瘫痪的情况。绿色的线路表示可以通行的线路,红色的线路表示无法通行的线路,而蓝色的线路表示改选过的线路。如上图,黑色的方格是当前细胞,两边的白色方格是它的邻居。横坐标轴表示的是时间。

2023-04-30 14:12:59 129 1

转载 做科研做到绝望是一种什么样的体验

最近我遇到了一个好几年没见的朋友,我们当初一起读的博士学位,虽然我们都是在自然科学领域,但是我们的研究方向并不相同。的确,做重要的研究是非常非常困难的,而且比那些要求非常苛刻的课程要难的多。head标签作为一个容器,主要包含了用于描述 HTML 文档自身信息(元数据)的标签,这些标签一般不会在页面中被显示出来,主要告知搜索引擎本页面的关键字以及对应网址,在SEO中传递相关权重起到非常重要的作用。我的博士研究项目里有一些交叉学科的内容,有那么一段时间每当我遇到问题的时候,我都会缠着我们学院的老师。

2023-04-30 14:10:50 97 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除