Charles.zhang-CSDN博客

转载【无标题】

期研究了一下以图搜图这个炫酷的东西。百度和谷歌都有提供以图搜图的功能，有兴趣可以找一下。当然，不是很深入。深入的话，得运用到深度学习这货。Python深度学习当然不在话下。这个功能最核心的东西就是怎么让电脑识别图片。这个问题也是困扰了我，在偶然的机会，看到哈希感知算法。这个分两种，一种是基本的均值哈希感知算法(dHash)，一种是余弦变换哈希感知算法(pHash)。dHash是我自己命名的，为了和pHash区分。这里两种方法，我都用Python实现了^_^哈希感知算法基本原理如下：

2022-02-22 11:22:59 1006

转载 Mac上已经卸载干净jdk，但是安装新jdk却提示已经安装更新版

问题描述：前两天Mac系统升级了catalina，结果以前安装的jdk1.6居然没了，于是在苹果官网下载jdk1.6打算重新安装，结果始终提示：“Java for macOS 2017-001”无法安装在此磁盘上。已安装本软件包的更高版本，现象如图：，但是我确信系统中已经完完全全没有jdk了。解决步骤：1.首先在Mac上找到“脚本编辑器”应用，图标如图：2.将以下代码复制到“脚本编辑器”应用中（注意换行，如果换行与我贴出来的不一样可能会执行失败）：set the..

2022-02-15 11:04:26 1854 1

转载 Python中文分词工具大合集：安装、使用和测试

这篇文章事实上整合了前面两篇文章的相关介绍，同时添加一些其他的Python中文分词相关资源，甚至非Python的中文分词工具，仅供参考。首先介绍之前测试过的8款中文分词工具，这几款工具可以直接在AINLP公众号后台在线测试，严格的说，它们不完全是纯粹的中文分词工具，例如SnowNLP, Thulac, HanLP，LTP，CoreNLP都是很全面的(中文）自然语言处理工具。安装这些模块其实很简单，只要按官方文档的方法安装即可，以下做个简单介绍，在Python3.x的环境下测试，Ubuntu16.04 或

2022-02-15 10:26:40 1966

转载计算广告中的lookalike是如何实现的？

什么是lookalikelookalike算法是计算广告中的术语，不是单指某一种算法，而是一类方法的统称。其目的就是为了实现人群包扩充。简单场景广告主需要对100w人投放，但是，从选取的基础数据包中，只有30w，那么如何满足100w的投放需求，这时，就需要通过lookalike的方式进行扩充，既要保证人群数量，又要确保人群的相似。如果只是简单的从公共池中选取70w，完成100w的匹配，很有可能出现无效用户。例如：高级消费品，尽可能的投放给中高级消费，且具有该品类偏好的人群。如何进行loo

2022-02-12 16:21:26 749

转载 QQ 音乐推荐系统的精细化调控

导读：大家好，我是来自QQ音乐数据科学团队的Bill，接下来由我给大家分享QQ音乐在内容理解和精细化运营方面的一些实践和经验，副标题是推荐系统的精细化调控，相比于前面分享的一些硬核的算法模型和系统架构，我这里更多会介绍一些更显性的、更具可解释性的一些数据驱动方法在内容精细化运营场景的应用。本文主要分为5部分：第1部分会介绍业务背景、总体解决方案和收益，第2~4部分分别介绍内容理解、运营中台、投放系统的具体实现方案，最后做一个简单的总结和展望。01背景与方案QQ音乐作为一个以PGC内容为.

2022-02-12 16:20:33 1218

转载音乐推荐系统

数据获取任何的机器学习算法解决问题，首先要考虑的是数据，数据从何而来？对于酷狗音乐/网易音乐这样的企业而言，用户的收藏和播放数据是可以直接获得的----歌单数据说明歌单的形式{ "result": { "id": 111450065, "status": 0, "commentThreadId": "A_PL_0_111450065", "trackCount": 120, "updateTime...

2022-02-12 15:33:11 1231

转载基于深度学习的音乐推荐系统简述

本文简要介绍我做的基于深度学习的音乐推荐系统。主要从需求分析与设计实现的角度来进行介绍。（一）需求分析基于深度学习的音乐推荐系统旨在以个性化音乐推荐模型为基础，使用B/S架构的形式实现。个性化推荐模型使用了随机梯度下降（SGD）、 K近邻分类算法（KNN）、协同过滤等传统机器学习领域算法进行音乐推荐的，同时使用了类似于Word2vec的词袋模型和词向量模型来对歌词进行文本处理，构建了异构文本网络，来标识用户的歌曲偏好，然后在此基础上引入了一个Java方面深度学习库deepLearning4j

2022-02-12 15:20:53 5111 2

转载音乐数据集汇总

接下来会研究一下音乐推荐系统，需要数据来进行算法及工程代码的演示，遂汇总一下网上开源的音乐数据集。Million Song Dataset说到音乐数据集第一位肯定是MSD，它包含了100万首歌曲的信息，总量有280GB大小。由于数据量的确较大，它使用了h5的文件压缩格式，并提供了一些code用于读这种文件。每首歌对应一个文件，字段包括歌曲的方方面面，如artist_mbid，artist_name，title，tempo等等，所有字段在这里列出。路径是奇怪的，Q&A中解...

2022-02-12 14:42:34 5314

转载网易云音乐推荐算法分析

近年来，网易云音乐作为一匹黑马迅速在移动音乐app占据市场，2016年用户量就突破了2亿，而这与它优质的推荐系统必不可分。当今，在这个信息爆炸的时代，我们可以接触到庞大浩瀚的网络资源，极大地便利了我们的生活。但是，通常情况下，用户不清楚自己的需求，不能归纳自己的兴趣爱好。而网易云音乐认识到了这个用户痛点，帮助用户发现自身的兴趣偏好，实现了智能个性化推荐，成为现代很多人们日常生活不可缺少的精神伴侣。下面我将从网易云音乐的推荐分析、推荐算法分析、以及对推荐模块的建议三个部分展开论述。一．网易云音乐

2022-02-12 14:35:52 4186

转载算法推歌20年：从Pandora、Spotify到QQ音乐、网易云音乐

作者| 鲁修修，编辑 | 范志辉，音乐先声（ID:nakedmusic）从杂志、报纸上的乐评专栏，到音乐流媒体上的用户评论、算法推荐，人们听歌的选择方式一直处于私人化和公开化之间。近期，音乐软件Plexamp又进行了一次大规模的升级，其中最受关注的，当属新功能“Super Sonic”的上线。据Plex介绍，这款只针对会员用户的新功能将利用庞大的神经网络，从“声音”上对用户歌单中的歌曲进行分析，完成新内容的个性化推荐。不过，这一功能“更新需要占用大量的CPU，可能要花费您数小时甚至数天的时间...

2022-02-12 14:23:22 993

转载针对pandas merge之后数据类型发生改变

pandas的表合并方式具体这里我就不讲了，这里百度有很多。里面有一个 merge 合并之后数据类型改变的问题，百度之后也没有得出很好的结果。这里会出现一种情况：两个整形的数据经过合并之后变成了浮点型。这个变化在小数据量时区别可能不是很大，只是相对比较麻烦一点。大量数据的话涉及到数据之间的交互（运算）会消耗大量时间。当然你要是说手动把他再强转回来，就当我没说。为什么会出现这种情况呢？经过一系列测试之后，发现问题在于合并方向，有人说right能够避免这个问题，left会出现这种问题，那就是

2021-03-12 11:42:47 2305

转载推荐系统数据集大列表

今天给大家介绍一个github仓库，收集了非常多的推荐系统的数据集，非常的全面，非常的实用，做推荐系统相关的同学可以收藏一下。这些数据集在可作为基准的推荐系统中非常流行。Douban：http://socialcomputing.asu.edu/datasets/Douban 这是一个匿名的豆瓣数据集，包含129,490个独立用户和58,541个独立电影条目。 Epinions：http://www.trustlet.org/epinions.html Epinions是一个人们可以评论产品.

2021-03-11 09:00:06 2726 2

转载排序算法常用评价指标计算方式AUC

现在的排序评估指标主要包括MAP、NDCG和AUC三个指标。NDCG考虑多指标，MAP和AUC考虑单个指标。1.AUC 最直观的，根据AUC这个名称，我们知道，计算出ROC曲线下面的面积，就是AUC的值。事实上，这也是在早期 Machine Learning文献中常见的AUC计算方法。由于我们的测试样本是有限的。我们得到的AUC曲线必然是一个阶梯状的。因此，计算的AUC也就是这些阶梯下面的面积之和。这样，我们先把score排序(假设score越大，此样本属于正类的概率越大)，然后一边扫描就可以得.

2021-02-08 14:26:06 1795

转载标签体系应用及设计思路

本文将为你重点介绍：企业做标签画像的目的；标签和画像的应用场景及应用流程；构建标签和画像体系的实操方法论；证券行业案例。我接触过各行各业的客户，在跟他们交流以及沟通需求的过程中，很明显的会感受到，在数据的基建和应用层面，除了重视数据分析外，也越来越重视数据资产在更多业务场景中的应用，标签画像的建设和应用就是其中一类很常见的需求和期望。事实上，我认为从对业务的价值来说，标签和画像是类似中间层的系统模块，具体来说，数据资产本质上是一些采集、采购所获得的数据源，但企业希望在数据源的基础上，实

2021-01-23 14:39:38 3336 1

转载推荐系统之标签体系

为什么要先介绍标签体系？一个推荐系统效果好与坏最基本的保障、最基础的是什么？如果让我来回答，一定是标签体系。我这里说的标签主要是针对物料的，对于电商平台来说就是商品；对于音乐平台来说就是每一个首歌，对于新闻资讯平台来说就是每一条新闻。下一篇要介绍的是用户画像，画像中那些用户实时变化的兴趣点大都也是来自于标签体系，依据用户长期和短期行为中对于物料搜索、点击、收藏、评论、转发等事件，将物料的标签传导到用户画像上，就构成了用户的实时画像和离线画像中的各个动态维度。标签体系概览以京东的标签体系中的京

2021-01-23 14:01:13 1613

转载 svn代码量统计

2020年年终总结，作为后端开发人员一整年的工作成果，最拿得出手的就是项目中的代码提交量，而在我的工作中，代码版本管理使用的是svn，但svn本身貌似不支持进行代码统计，因此从网上找到了一个svn代码统计的工具：StatSVN，该工具是由java写的一个jar包：statsvn.jar，因此要使用该工具前，请确保安装了jdk环境。本文基于Windows操作系统。2|0开始使用2|1下载statsvn.jar工具官网下载地址：http://www.statsvn.org/d...

2021-01-12 18:16:13 4579 2

转载 MongoDB Compass 操作MongoDB数据库

根据官网介绍Download and Install Compass — MongoDB Compass stable去下载页面Compass | MongoDB下载安装包比如Mac的是https://downloads.mongodb.com/compass/mongodb-compass-1.14.5-darwin-x64.dmg下载后，安装即可。安装后是：当前版本是：1.14.5基本使用打开后，进入连接数据库页：点击连接后，进入数据库列表页：

2020-11-17 16:16:56 4804

转载 airflow 修改中国时区(改airflow源码)

airflow默认使用utc时间，在中国时区需要用+8小时就是本地时间，下面把airflow全面修改为中国时区，带大家改airflow源码博主使用airflow版本是1.10.0，其它版本大同小异，参照修改即可1. 先讲使用 pip安装apache-airflow 的修改方式在airflow家目录下修改airflow.cfg，设置 default_timezone = Asia/Shanghai进入airflow包的安装位置,也就是site-packages的位置,以下修改文件均为.

2020-11-13 14:38:56 1795

转载 Mac上安装MySQL服务与创建数据库

1.安装MySQL （免费）官网现下载地址http://dev.mysql.com/downloads/mysql/ （我选的mysql-5.7.17-macos10.12-x86_64.dmg）点击download会跳转到另外一个界面，这个界面是提示你需不需要注册的，直接选择最下面的“No thanks,just take me to downloads!”即开始下载。2.解压后分别安装mysql-5.7.17-osx10.6-x86_64.pkg：这个是MySql的主要程序包...

2020-11-13 11:06:42 1017

原创百度图像搜索爬虫BaiduImagesDownload

BaiduImagesDownload是一个快速、简单百度图片爬取工具，可以通过pip install 直接安装安装pip install BaiduImagesDownload使用基本from BaiduImagesDownload.crawler import Crawler# original为True代表优先下载原图net, num, urls = Crawler.get_images_url('二次元', 20, original=True)Crawle...

2020-11-12 17:40:49 1016 1

转载 JSON文件内容加注释的几种方法

JSON规范，不支持注释。之所以不允许加注释，主要是防止：过多的注释，影响了文件本身的数据载体的目的。有些文件，尤其是配置文件，加入解释说明一些数据项的含义，是有必要的。1、使用JSON5规范 JSON5规范允许在JSON文件中加入注释：单行注释，多行注释均可。2、直接用json-schema，使用规范中的注释字段优点：功能强大缺点：json-schema与json数据本身分离3、使用去注释的库可以使用npm的strip-json-com...

2020-11-06 13:56:15 14032

转载数据标注软件labelme详解

1. Labelme 是什么？Labelme 是一个图形界面的图像标注软件。其的设计灵感来自于http://labelme.csail.mit.edu/。它是用 Python 语言编写的，图形界面使用的是 Qt（PyQt）。实例分割样例（VOC）其它样例（场景分割，目标检测，分类）各形状标注样例（多边形，矩形，圆形，多段线，线段，点）2. Labelme 能干啥？对图像进行多边形，矩形，圆形，多段线，线段，点形式的标注（可用于目标检测，图像分割，等任务）。对图...

2020-10-28 14:51:30 11141 1

转载 kaggle——销量预测的baseline（M5 Forecasting - Accuracy）

前言在刚刚结束的kaggle比赛M5 Forecasting - Accuracy中，因为是第一次参加，笔者也是花了大量的时间和精力在上面，历时4个月,最终拿到一块银牌（所以我拿到了大学第一个考试挂科。。。求求电磁场老师高抬贵手给点平时分放我一马吧。。。早上看到kaggle成绩异常兴奋，中午考完直接爆炸=。=），当然运气占了很大因素，这次比赛private leadboard的shake up非常大，排名波动几千名都存在的。笔者运气不错，是向上的shake：)。这里总结一下销量预测的基本流程。从下

2020-10-27 11:53:30 2364

转载 python强大的区间处理库interval用法介绍

python强大的区间处理库interval用法介绍原文发表在我的博客主页，转载请注明出处前言这个库是在阅读别人的源码的时候看到的，觉得十分好用，然而在网上找到的相关资料甚少，所以阅读了源码来做一个简单的用法总结。在网络的路由表中，经常会通过掩码来表示流表的匹配域，在python中有的时候为了方便的模拟流表的匹配过程，可以通过一个整数区间来表示诸如IP等的匹配范围，而本文介绍的库在区间处理上是十分的强大与方便。用法举例不论是在Linux系统还是Windows系统上，我们都可以方便的安装p

2020-10-13 11:47:51 5624 1

转载 python itertools.product的用法

目前有一字符串s ="['a', 'b'],['c', 'd']"，想把它分开成为两个列表：list1 = ['a', 'b']list2 = ['c', 'd']之后使用itertools.product()求笛卡尔积，应该写成：1 for i in itertools.product(list1, list2):2 print i结果为：('a', 'c')('a', 'd')('b', 'c')('b', 'd')然而使用eval(s)获得的是一个元组.

2020-10-12 18:05:14 8123 1

原创 TypeError: Scalar value for argument ‘color‘ is not numeric

使用openCV生成验证码时 cv2.putText出现TypeError: Scalar value for argument ‘color’ is not numeric这句话的意思是颜色参数不是不是数字类型引发该错误的情况有两种1、color值超出（0，255）2、坐标值错误，输入坐标为[200, 399]列表形式时，也会引发该错误，转成tuple即可解决...

2020-10-02 01:27:00 2820

转载 opencv-python读取tiff影像，并展示

pencv-python可以读取各类图片，然后对图像进行处理，结合矩阵操作，可以非常方便的对图像进行各类操作，下面就展示一个简单的demo，用opencv-python读取图像并展示出来。Opencv的库安装可能比较麻烦一点。# 导入cv模块import cv2 as cvimport numpy as np# 读取图像，支持 bmp、jpg、png、tiff 等常用格式# 第二个参数是通道数和位深的参数，有四种选择，参考https://www.cnblogs.com/goushib

2020-10-01 22:44:03 9496 1

转载浅谈python下tiff图像的读取和保存方法

对比测试scipy.misc和PIL.Image和libtiff.TIFF三个库输入：1. (读取矩阵) 读入uint8、uint16、float32的lena.tif2. (生成矩阵) 使用numpy产生随机矩阵，float64的matimportnumpyasnpfromscipyimportmiscfromPILimportImagefromlibtiffimportTIFF## 读入已有图像,数据类型和原图像一致tif32=mis...

2020-10-01 22:38:39 4147 2

转载 python中使用gdal，osgeo

目的：实现fromosgeoimportgdal工具：win10，vc2015，gdal-2.2.2，download.osgeo.org/gdal/2.2.2/（用的13M的那个，我估计是64位的，就按64位操作了）py3.5（anaconda4.2.0）说明：1.用的cmd命令行编译gdal（只编译了gdal，参考了blog.csdn.net/cmfootball/article/details/19981833）2.python版本是anaconda...

2020-10-01 22:34:11 4969 1

转载 python3+osgeo处理高分影像初探

之前用IDL写高分预处理的时候，就有想过可不可以用python+GDAL写，可是一直卡在了第一步的正射校正，gdal.Warp()函数始终找不到放DEM的位置，最近终于找到了。我尝试了一景1.3G的GF1/WFV，采用ENVI/IDL的脚本运行每次都需要500s以上，而python3+osgeo则稳定在惊人的15s以内！就速度而言，python3+osgeo远远快于ENVI接口。以下是今天写的简单的代码，包括解压函数，正射校正函数和融合函数（GDAL的融合方法只有默认的加权brovey变换）。运行了一景

2020-10-01 22:30:57 2397 4

转载 python语言转换库snowballstemmer

安装pip install snowballstemmer这是一款非常瘦小的语言转换库，支持15种语言。 'danish': 丹麦语, 'dutch': 荷兰语, 'english': 英语, 'finnish': 芬兰语, 'french': 法语, 'german': 德语, 'hungarian': 匈牙利语, 'italian': 意大利语, 'norwegian': 挪威语, 'porter': 波特

2020-09-28 10:39:42 2849

转载 Pandas：细说groupby和aggregate、transform、apply以及filter

这一个知识点感觉是目前接触的Pandas中最难的了，故写篇博客记录一下，这一节有点函数式编程的味道~（一）groupby先说一下goupby，顾名思义，就是分组的意思，给你一个DataFrame，以某一列为标准，分成若干个“子DataFrame”，这些个“子DataFram”由两部分组成，一个是索引index，即类别，一个是“子DataFrame”的内容，数据类型也是DataFrame，不过行数少点罢了，说白了，就是把那一列相同类别的所有行单独提出来，凑成一个DataFrame，该列有N种类别就有N

2020-09-27 16:18:27 1303 1

转载 SEM,KPI,CPC,CPA,ROI……一篇文章搞懂电子商务最全术语!

导读：在互联网运营的过程中或者接触网络营销的人，都知道，有些缩写的英文看的让人头疼，总是记不住，今天给大家搜集了最全的术语，让你轻松记全，记得收藏!SEM：Search Engine Marketing的缩写，意即搜索引擎营销；EDM：Electronic Direct Marketing的缩写，就是电子邮件营销；AdWords：Google的关键词竞价广告；CPS：Cost Per Sales的缩写,即销售分成；CPA：Cost Per Action，每次动作成本，即根据每个访问者

2020-09-27 11:40:08 5699

转载 python中分组排序--groupby(),rank()

1.python 中分组统计1.1按性别统计出年龄最大，最小，平均值 import pandas as pd df = pd.read_excel(r'./data.xlsx') print(df) ages = df.groupby(['gender'])['age'] ages_min = ages.min() ages_max = ages.max() ages_mean = ages.mean() prin.

2020-09-23 17:30:34 10623

转载 Residual Attention Network 翻译

阅读笔记（paper+code）：Residual Attention Network for Image Classification代码链接：https://github.com/fwang91/residual-attention-network深度学习中的attention，源自于人脑的注意力机制，当人的大脑接受到外部信息，如视觉信息、听觉信息时，往往不会对全部信息进行处理和理解，而只会将注意力集中在部分显著或者感兴趣的信息上，这样有助于滤除不重要的信息，而提升信息处理的效率。最早将Atte

2020-09-23 09:49:09 432

fashion-mnist数据集和论文

MeanShift实现代码和视频

python+OpenCV+TensorFlow人脸识别

python+opencv实现全景拼接

OpenCV-master

Thunderfighter.exe

空空如也