【无标题】 期研究了一下以图搜图这个炫酷的东西。百度和谷歌都有提供以图搜图的功能,有兴趣可以找一下。当然,不是很深入。深入的话,得运用到深度学习这货。Python深度学习当然不在话下。这个功能最核心的东西就是怎么让电脑识别图片。这个问题也是困扰了我,在偶然的机会,看到哈希感知算法。这个分两种,一种是基本的均值哈希感知算法(dHash),一种是余弦变换哈希感知算法(pHash)。dHash是我自己命名的,为了和pHash区分。这里两种方法,我都用Python实现了^_^哈希感知算法基本原理如下:
Mac上已经卸载干净jdk,但是安装新jdk却提示已经安装更新版 问题描述:前两天Mac系统升级了catalina,结果以前安装的jdk1.6居然没了,于是在苹果官网下载jdk1.6打算重新安装,结果始终提示:“Java for macOS 2017-001”无法安装在此磁盘上。已安装本软件包的更高版本,现象如图:,但是我确信系统中已经完完全全没有jdk了。解决步骤:1.首先在Mac上找到“脚本编辑器”应用,图标如图:2.将以下代码复制到“脚本编辑器”应用中(注意换行,如果换行与我贴出来的不一样可能会执行失败):set the..
Python中文分词工具大合集:安装、使用和测试 这篇文章事实上整合了前面两篇文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考。首先介绍之前测试过的8款中文分词工具,这几款工具可以直接在AINLP公众号后台在线测试,严格的说,它们不完全是纯粹的中文分词工具,例如SnowNLP, Thulac, HanLP,LTP,CoreNLP都是很全面的(中文)自然语言处理工具。安装这些模块其实很简单,只要按官方文档的方法安装即可,以下做个简单介绍,在Python3.x的环境下测试,Ubuntu16.04 或
计算广告中的lookalike是如何实现的? 什么是lookalikelookalike算法是计算广告中的术语,不是单指某一种算法,而是一类方法的统称。其目的就是为了实现人群包扩充。简单场景广告主需要对100w人投放,但是,从选取的基础数据包中,只有30w,那么如何满足100w的投放需求,这时,就需要通过lookalike的方式进行扩充,既要保证人群数量,又要确保人群的相似。如果只是简单的从公共池中选取70w,完成100w的匹配,很有可能出现无效用户。例如:高级消费品,尽可能的投放给中高级消费,且具有该品类偏好的人群。如何进行loo
QQ 音乐推荐系统的精细化调控 导读:大家好,我是来自QQ音乐数据科学团队的Bill,接下来由我给大家分享QQ音乐在内容理解和精细化运营方面的一些实践和经验,副标题是推荐系统的精细化调控,相比于前面分享的一些硬核的算法模型和系统架构,我这里更多会介绍一些更显性的、更具可解释性的一些数据驱动方法在内容精细化运营场景的应用。本文主要分为5部分:第1部分会介绍业务背景、总体解决方案和收益,第2~4部分分别介绍内容理解、运营中台、投放系统的具体实现方案,最后做一个简单的总结和展望。01背景与方案QQ音乐作为一个以PGC内容为.
音乐推荐系统 数据获取任何的机器学习算法解决问题,首先要考虑的是数据,数据从何而来?对于酷狗音乐/网易音乐这样的企业而言,用户的收藏和播放数据是可以直接获得的----歌单数据说明歌单的形式{ "result": { "id": 111450065, "status": 0, "commentThreadId": "A_PL_0_111450065", "trackCount": 120, "updateTime...
基于深度学习的音乐推荐系统简述 本文简要介绍我做的基于深度学习的音乐推荐系统。主要从需求分析与设计实现的角度来进行介绍。(一)需求分析 基于深度学习的音乐推荐系统旨在以个性化音乐推荐模型为基础,使用B/S架构的形式实现。个性化推荐模型使用了 随机梯度下降(SGD)、 K近邻分类算法(KNN)、协同过滤等传统机器学习领域算法进行音乐推荐的,同时使用了类似于Word2vec的词袋模型和词向量模型来对歌词进行文本处理,构建了异构文本网络,来标识用户的歌曲偏好,然后在此基础上引入了一个Java方面深度学习库deepLearning4j
音乐数据集汇总 接下来会研究一下音乐推荐系统,需要数据来进行算法及工程代码的演示,遂汇总一下网上开源的音乐数据集。Million Song Dataset说到音乐数据集第一位肯定是MSD,它包含了100万首歌曲的信息,总量有280GB大小。由于数据量的确较大,它使用了h5的文件压缩格式,并提供了一些code用于读这种文件。每首歌对应一个文件,字段包括歌曲的方方面面,如artist_mbid,artist_name,title,tempo等等,所有字段在这里列出。 路径是奇怪的,Q&A中解...
网易云音乐推荐算法分析 近年来,网易云音乐作为一匹黑马迅速在移动音乐app占据市场,2016年用户量就突破了2亿,而这与它优质的推荐系统必不可分。当今,在这个信息爆炸的时代,我们可以接触到庞大浩瀚的网络资源,极大地便利了我们的生活。但是,通常情况下,用户不清楚自己的需求,不能归纳自己的兴趣爱好。而网易云音乐认识到了这个用户痛点,帮助用户发现自身的兴趣偏好,实现了智能个性化推荐,成为现代很多人们日常生活不可缺少的精神伴侣。下面我将从网易云音乐的推荐分析、推荐算法分析、以及对推荐模块的建议三个部分展开论述。一. 网易云音乐
算法推歌20年:从Pandora、Spotify到QQ音乐、网易云音乐 作者| 鲁修修,编辑 | 范志辉,音乐先声(ID:nakedmusic)从杂志、报纸上的乐评专栏,到音乐流媒体上的用户评论、算法推荐,人们听歌的选择方式一直处于私人化和公开化之间。近期,音乐软件Plexamp又进行了一次大规模的升级,其中最受关注的,当属新功能“Super Sonic”的上线。据Plex介绍,这款只针对会员用户的新功能将利用庞大的神经网络,从“声音”上对用户歌单中的歌曲进行分析,完成新内容的个性化推荐。不过,这一功能“更新需要占用大量的CPU,可能要花费您数小时甚至数天的时间...
针对pandas merge之后数据类型发生改变 pandas的表合并方式具体这里我就不讲了,这里百度有很多。里面有一个 merge 合并之后数据类型改变的问题,百度之后也没有得出很好的结果。这里会出现一种情况:两个整形的数据经过合并之后变成了浮点型。这个变化在小数据量时区别可能不是很大,只是相对比较麻烦一点。大量数据的话涉及到数据之间的交互(运算)会消耗大量时间。当然你要是说手动把他再强转回来,就当我没说。为什么会出现这种情况呢?经过一系列测试之后,发现问题在于合并方向,有人说right能够避免这个问题,left会出现这种问题,那就是
推荐系统数据集大列表 今天给大家介绍一个github仓库,收集了非常多的推荐系统的数据集,非常的全面,非常的实用,做推荐系统相关的同学可以收藏一下。这些数据集在可作为基准的推荐系统中非常流行。Douban:http://socialcomputing.asu.edu/datasets/Douban 这是一个匿名的豆瓣数据集,包含129,490个独立用户和58,541个独立电影条目。 Epinions:http://www.trustlet.org/epinions.html Epinions是一个人们可以评论产品.
排序算法常用评价指标计算方式AUC 现在的排序评估指标主要包括MAP、NDCG和AUC三个指标。NDCG考虑多指标,MAP和AUC考虑单个指标。1.AUC 最直观的,根据AUC这个名称,我们知道,计算出ROC曲线下面的面积,就是AUC的值。事实上,这也是在早期 Machine Learning文献中常见的AUC计算方法。由于我们的测试样本是有限的。我们得到的AUC曲线必然是一个阶梯状的。因此,计算的AUC也就是这些阶梯 下面的面积之和。这样,我们先把score排序(假设score越大,此样本属于正类的概率越大),然后一边扫描就可以得.
标签体系应用及设计思路 本文将为你重点介绍:企业做标签画像的目的; 标签和画像的应用场景及应用流程; 构建标签和画像体系的实操方法论; 证券行业案例。我接触过各行各业的客户,在跟他们交流以及沟通需求的过程中,很明显的会感受到,在数据的基建和应用层面,除了重视数据分析外,也越来越重视数据资产在更多业务场景中的应用,标签画像的建设和应用就是其中一类很常见的需求和期望。事实上,我认为从对业务的价值来说,标签和画像是类似中间层的系统模块,具体来说,数据资产本质上是一些采集、采购所获得的数据源,但企业希望在数据源的基础上,实
推荐系统之标签体系 为什么要先介绍标签体系?一个推荐系统效果好与坏最基本的保障、最基础的是什么?如果让我来回答,一定是标签体系。我这里说的标签主要是针对物料的,对于电商平台来说就是商品;对于音乐平台来说就是每一个首歌,对于新闻资讯平台来说就是每一条新闻。下一篇要介绍的是用户画像,画像中那些用户实时变化的兴趣点大都也是来自于标签体系,依据用户长期和短期行为中对于物料搜索、点击、收藏、评论、转发等事件,将物料的标签传导到用户画像上,就构成了用户的实时画像和离线画像中的各个动态维度。标签体系概览以京东的标签体系中的京
svn代码量统计 2020年年终总结,作为后端开发人员一整年的工作成果,最拿得出手的就是项目中的代码提交量,而在我的工作中,代码版本管理使用的是svn,但svn本身貌似不支持进行代码统计,因此从网上找到了一个svn代码统计的工具:StatSVN,该工具是由java写的一个jar包:statsvn.jar,因此要使用该工具前,请确保安装了jdk环境。本文基于Windows操作系统。2|0开始使用2|1下载statsvn.jar工具官网下载地址:http://www.statsvn.org/d...
MongoDB Compass 操作MongoDB数据库 根据官网介绍Download and Install Compass — MongoDB Compass stable去下载页面Compass | MongoDB下载安装包比如Mac的是https://downloads.mongodb.com/compass/mongodb-compass-1.14.5-darwin-x64.dmg下载后,安装即可。安装后是:当前版本是:1.14.5基本使用打开后,进入连接数据库页:点击连接后,进入数据库列表页:
airflow 修改中国时区(改airflow源码) airflow默认使用utc时间,在中国时区需要用+8小时就是本地时间,下面把airflow全面修改为中国时区,带大家改airflow源码博主使用airflow版本是1.10.0,其它版本大同小异,参照修改即可1. 先讲使用 pip安装apache-airflow 的修改方式在airflow家目录下修改airflow.cfg,设置 default_timezone = Asia/Shanghai进入airflow包的安装位置,也就是site-packages的位置,以下修改文件均为.
Mac上安装MySQL服务与创建数据库 1.安装MySQL (免费)官网现下载地址http://dev.mysql.com/downloads/mysql/ (我选的mysql-5.7.17-macos10.12-x86_64.dmg)点击download会跳转到另外一个界面,这个界面是提示你需不需要注册的,直接选择最下面的“No thanks,just take me to downloads!”即开始下载。2.解压后分别安装mysql-5.7.17-osx10.6-x86_64.pkg:这个是MySql的主要程序包...
百度图像搜索爬虫BaiduImagesDownload BaiduImagesDownload是一个快速、简单百度图片爬取工具,可以通过pip install 直接安装安装pip install BaiduImagesDownload使用基本from BaiduImagesDownload.crawler import Crawler# original为True代表优先下载原图net, num, urls = Crawler.get_images_url('二次元', 20, original=True)Crawle...