数据挖掘
文章平均质量分 52
love_data_scientist
这个作者很懒,什么都没留下…
展开
-
从0到1搭建推荐系统-02用户流量增长
用户增长原创 2022-11-08 13:18:25 · 157 阅读 · 0 评论 -
从0到1搭建推荐系统-01标签体系构建+内容审核体系构建
推荐系统中的标签原创 2022-11-08 10:57:01 · 737 阅读 · 0 评论 -
sklearn 增量学习
如果想用sklearn进行在线学习如何操作呢?https://scikit-learn.org/stable/modules/computing.html?highlight=incremental%20learningStrategies to scale computationally: bigger data a way to stream instances...原创 2020-02-03 22:43:29 · 1066 阅读 · 0 评论 -
paddlepaddle-gpu的安装 cuda9.0 cudnn7.3.1
1.安装anaconda2.安装cuda9.0 cudnn7.3.13.安装paddlepaddle-gpu,遇到的问题:1.Failed to find dynamic library: libcublas.so ( libcublas.so: cannot open shared object file: No such file or directory )解决方法:定...原创 2019-07-12 12:24:00 · 2443 阅读 · 1 评论 -
boost.python boost.numpy python 和 C++联合编程
一 python的numpy.array传给C++处理1.安装boost,boost-python,boost-numpy2.主要程序2.1 vectors.cpp#include<cmath>#include<boost/python/module.hpp>#include<boost/python/def.hpp>#include<...原创 2019-07-05 20:21:37 · 1087 阅读 · 0 评论 -
使用pytorch中的bert模型获取句子向量为后续NLP任务做准备
1.安装pytorch-pretrained-BERTpip install pytorch-pretrained-bert我的python版本是3.62.下载模型和字典:模型和字典位置:https://s3.amazonaws.com/models.huggingface.co例如下载bert-base-cased.tar.gzhttps://s3.amazonaws...原创 2019-07-15 12:22:01 · 10308 阅读 · 4 评论 -
复习基于图的推荐算法(PersonalRank)
将用户行为数据用二分图表示,例如用户数据是由一系列的二元组组成,其中每个元组(u,i)表示用户u对物品i产生过行为。将个性化推荐放在二分图模型中,那么给用户u推荐物品任务可以转化为度量Uv和与Uv没有边直接相连的物品节点在图上的相关度,相关度越高的在推荐列表中越靠前。基于随机游走的PersonalRank算法假设给用户u进行个性化推荐,从图中用户u对应的节点Vu开始游走,游...原创 2019-07-08 11:36:57 · 627 阅读 · 0 评论 -
PIL python 图形大小随文字变化
import cv2from PIL import Imageimport numpy as npfrom PIL import Image, ImageDraw, ImageFontdef self_adaption_font_oneline(font_filename, default_font_size, text): ttfont = ImageFont.truetyp...原创 2019-05-31 14:31:17 · 1239 阅读 · 0 评论 -
python opencv实现 12色相环、24色相环(基于RGB空间和基于HSV空间实现)
opencv中HSV的值范围是:H 0-180;S 0-255; V 0-255import cv2from PIL import Imageimport numpy as npdef fetch_img(img, first_list, color_value_list, width, height): r,g,b = color_value_list sec_...原创 2019-05-23 21:45:24 · 4843 阅读 · 5 评论 -
NLP GLUE数据
CoLA: 单句的二分类问题, 判断一个英文句子在语法上是不是可接受的. SST-2 单句的二分类问题, 句子的来源于人们对一部电影的评价, 判断这个句子的情感. MRPC 句子对来源于对同一条新闻的评论. 判断这一对句子在语义上是否相同. STS-B 这是一个类似回归的问题. 给出一对句子, 使用1~5的评分评价两者在语义上的相似程度. Q...转载 2019-07-17 12:36:57 · 748 阅读 · 0 评论 -
pytorch获得图片特征
1.模型为resnet152, 默认输出图片大小是224*224*32.获取除去全连接层的模型import torchimport torch.nn as nnimport torchvision.models as modelsfrom torch.autograd import Variableresnet152 = models.resnet152(pretrained=Tr...原创 2019-07-19 20:15:40 · 1286 阅读 · 0 评论 -
深度学习之提升数据加载速度--lmdb--1
直接读取文件->保存到lmdb->从lmdb读入数据,python3.6import lmdbimport numpy as npdef write_lmdb(filename,lmdb_path="output/test"): env = lmdb.open(lmdb_path) with env.begin(write=True) as txn: ...原创 2019-08-18 20:58:49 · 858 阅读 · 0 评论 -
图文相关性论文
Image-sentence Matching转自https://blog.csdn.net/lry_xueshu/article/details/83030906转载 2019-08-20 15:12:08 · 489 阅读 · 0 评论 -
pytorch构建自己数据集合
使用pytorch构建自己的训练和测试数据集合,涉及自己数据处理类,数据变为tensor,数据分割等,为后续的训练准备了训练数据和测试数据import torchfrom torch.utils.data import DataLoader, Dataset,TensorDataset,random_splitimport sysclass label_featureDataS...原创 2019-08-15 17:09:59 · 413 阅读 · 0 评论 -
paddle 动态图编程
1.paddlehttps://www.paddlepaddle.org.cn/2.数据是mnist,把mnisit数据集合变成 img \t label形式#coding:utf-8from __future__ import print_functionimport numpy as npimport paddle.fluid as fluidimport paddle...原创 2019-08-27 20:04:50 · 912 阅读 · 0 评论 -
复习-优化算法
在线学习算法:FTRL下面程序来自https://www.kaggle.com/jiweiliu/ftrl-starter-code/codealpha = .005 # learning ratebeta = 1. # smoothing parameter for adaptive learning rateL1 = 0.2 # L1 regu...原创 2019-09-16 12:56:47 · 205 阅读 · 0 评论 -
复习_强化学习
强化学习常用的方法有基于值函数逼近的强化学习和基于确定性策略搜索的强化学习;基于值函数逼近的强化学习主要解决状态空间很大或者连续情况下的强化学习问题;包括DQN,double DQN,dueling DQN等;DQN:Human-level control through deep reinforcement learningDouble DQN:Deep Reinforceme...原创 2019-10-10 15:36:05 · 228 阅读 · 0 评论 -
PIL处理图片融合问题:从opencv读图片,变成4通道的numpy.array类型,再变成PIL.Image.Image类型,最后是两个png格式图片融合
1.从opencv读图片为彩色图片backgound,2.此时的backgound存储格式是BGR,而PIL图片格式是RGB,把backgound变成RGB格式cv2.cvtColor(backgound,cv2.COLOR_BGR2RGB);3.把backgound变成png图片,增加一层透明度值为255,img为numpy.array类型 img[:, :, :3] = backgo...原创 2019-05-22 16:13:23 · 2017 阅读 · 0 评论 -
GPU服务器配置深度学习开发环境(cuda9.0,cudnn7.1.2,tensorflow-gpu1.9,pytorch1.0.0)
环境CentOS release 6.3Tesla P4anaconda2gcc4.8glibc-2.14tensorflow1.9pytorch1.0 第一步:安装NVIDIA驱动,使lspci | grep -i nvidia能够显示出来,nvidia-smi查看GPU使用情况参考https://blog.csdn.net/oTengYue/articl...原创 2018-12-24 16:27:41 · 659 阅读 · 0 评论 -
文本数据挖掘-----词向量
中文数据挖掘的难点在于如何把文本变成计算机处理的向量,一个好的词向量方法可以提升分类或者其他应用效果。我把自己接触的词向量技术总结一下,方便自己复习和其他感兴趣的小伙伴交流学习。使用结巴或者其他中文分词工具分完词后就需要生成词向量了,方便后期的数据挖掘工作的展开。 词向量技术:我接触的大致可以分成(1)基于统计的方法(2)基于图的方法(3)基于主题模型的方法(4)基于深度学习原创 2017-11-06 19:01:11 · 2855 阅读 · 0 评论 -
《NLP汉语自然语言处理原理与实践》第一章
规则派还是统计派:1.规则派:以语言学理论为基础,根据语言学家对语言现象的认识,采用规则形式描述或解释歧义行为或歧义特性。规则派首先要对大量的语言现象进行研究,归纳出一系列的语言规则。然后再形成一套复杂的规则集----语言分析或生产系统,对自然语言进行分析处理。2.统计派:以基于语料库的统计分析为基础的经验主义方法,该方法更注重用数学,从能代表自然语言规律的大规模真实文本中发现知识原创 2017-09-11 10:59:29 · 4751 阅读 · 0 评论 -
数据挖掘、检索、自然语言处理
为什么要把这三个关键词写在一起呢?对于文本挖掘,第一步:在理解业务的基础上进行分词,这就涉及到nlp相关的知识了,目前我接触到中文分词比较好用的就是结巴中分分词,可能是我用python多一些,而结巴在python中安装和使用很方便的。第二步:提取关键词。那么为什么要提取关键词?,我们练习做垃圾邮件分类的时候,大部分没有提取关键词,直接使用贝叶斯公式处理,效果还可以的。但是当我们的文本信息特别多原创 2017-09-27 10:43:46 · 23562 阅读 · 0 评论 -
数据挖掘里面的特征工程
我在另一篇博客中写过《数据挖掘的流程----自己认为是最规范的》,里面描述了数据挖掘的完整的流程,这里我重点总结一些特征工程,不过不会特别细的写,因为目前有很多优质的博客文章存在。特征工程的方法大体可分三种方法:过滤式(Filter)、嵌入式(Embedded)和封装式(Wrapper)1.过滤式(Filter)这是最基本的特征选择方法,里面包括相似性检测方法、方差检测方法、熵的检测方原创 2017-09-03 10:52:05 · 1415 阅读 · 0 评论 -
数据挖掘的流程----自己认为是最规范的
数据挖掘的目的是解决问题,不以解决问题的数据挖掘项目全是耍流氓,通过这一年半的工作经历,结合自己学习和工作中总结,特此呈现数据挖掘的一般流程问题 -->数据-->特征工程-->模型训练和诊断-->模型效果离线评估-->模型效果线上评估(小流量测试)-->模型上线1.问题:项目的成立的依据,比如给商户营销,推荐视频给用户等等。这个阶段要明确问题可以拆分的子问题,确定和数据挖掘原创 2017-09-03 00:55:55 · 609 阅读 · 0 评论 -
《NLP汉语自然语言处理原理与实践》第四章 NLP中的概率图模型
目前最流行的算法思想包含如下两大流派:基于概率论和图论的概率图模型;基于人工神经网络的深度学习理论。4.1概率论回归 4.1.1 多元概率论的几个基本概念 4.1.2 贝叶斯与朴素贝叶斯算法 朴素贝叶斯理论源于随机变量的独立性,之所以称之为朴素是因为其思想基础的简单性:就文本分类而言,从朴素贝叶斯的角度来看,句子中的两两词之间的关系是相互独立的,即一个对象的特征原创 2017-09-14 16:29:18 · 784 阅读 · 0 评论 -
推荐算法从入门、进阶到高级
推荐的算法的重要性我就不多说了,反正是各种重要。最近一段时间结合部门业务,我仔细的研究了各种推荐算法,在此我会附上相应的书籍和文献,帮助大家迅速的入门进阶,最终进入推荐算法的高手行列。推荐算法分为:1.协同的推荐算法;2.基于内容的推荐算法;3.混合的推荐算法在甩干货之前,补充一些常识:机器学习、深度学习、推荐算法和数据挖掘的关系?个人认为(而且好多资料中写道(具体什么资料这个...原创 2017-09-03 00:14:05 · 11614 阅读 · 2 评论 -
矩阵分解笔记(Notes on Matrix Factorization)
本篇文章转自mingo_敏,作者文章地址:http://blog.csdn.net/shanglianlm/article/details/46755239本博文主要讨论 基本矩阵(Basic MF),非负矩阵(Non-negative MF)和正交非负矩阵(Orthogonal non-negative MF)三种常见的矩阵分解方法。并分别推导了它们的更新规则,收敛性,以及它们的应用转载 2017-07-27 15:20:03 · 586 阅读 · 0 评论 -
距离相似度方法
原作者题目:mahout推荐相似度学习总结 原文章路径:http://blog.csdn.net/a674810893/article/details/44729671mahout的推荐主要是基于协同过滤,协同过滤是通过了解用户与物品之间的关系,也就是用户对物品的偏好来总结经验(无需了解物品的属性),从而进行推荐。而协同过滤又分为基于用户和基于物品。基于用转载 2017-11-08 18:53:00 · 808 阅读 · 0 评论 -
分类中样本数据不平衡问题的解决方法
转自:http://blog.csdn.net/dream2009gd/article/details/35569343 问题:研究表明,在某些应用下,1∶35的比例就会使某些分类方法无效,甚至1∶10的比例也会使某些分类方法无效。(1)少数类所包含的信息就会很有限,从而难以确定少数类数据的分布,即在其内部难以发现规律,进而造成少数类的识别率低(2)数据碎片。很多分类转载 2017-10-16 14:14:16 · 1370 阅读 · 0 评论 -
深度学习框架---keras的层次示意图---方便直观理解---适用sklearn模型的展示
感觉keras确实比其他框架舒服一点,但是前期理解keras层的时候可能有点小问题,keras的层使用了原始神经网络层的概念,即先有上层的输出聚合,聚合后在进入激活函数。我的环境是python3.5+tensorflow+keras+graphviz+pydot_ng+pydotplus其中安装好Python3以及pip之后执行: pip install tensorflowpip install...原创 2017-11-25 23:25:11 · 1822 阅读 · 0 评论 -
learning to rank学习笔记
learning to rank是这几年火起来的一个学科,可以应用于检索、推荐等排序场景中。我们的业务场景大都和排序相关,那么掌握住learning to rank就又多了一条解决业务问题的方法。常见的排序算法:1.文本相关性计算方法:BM25,TF_IDF,word2vec等。2.图像相似度计算方法:平均哈希(aHash),感知哈希(pHash),差异值哈希。3.图文相关性使用g...原创 2018-09-29 19:52:17 · 372 阅读 · 0 评论 -
协同过滤相似度计算
(1)传统的杰卡德相似度计算公式如下, 其中A,B可以为不同用户的购物品类, 当用户量特别大的时候,导致计算复杂度比较高,因为直接进行了笛卡尔积运算,这时候可能没有办法进行运算。优化方法如下: 扫描整个品类,统计用户A和B共同出现的次数num_A_B,统计用户A和B出现的总次数num_A,num_B,A和B的并集为num_A+num_B-num_A_B...原创 2018-08-27 20:17:48 · 2412 阅读 · 0 评论 -
linux系统从百度网盘中拉大文件数据
有些深度学习相关的数据集合很有用,而且数据量特别大,为了以后学习使用,通常保存到百度网盘中。有时候数据来源于比赛网站,不能直接使用wget url获得数据,可以先把数据保存到百度网盘,通过离线下载输入相应的url,进行数据保存。在linux命令行中,快速的拉取数据变的很有用了,结果自己的经历,特把成功过程总结如下。1.在谷歌浏览器中安装Tampermonkey插件(http://tampermon...原创 2018-07-12 17:11:30 · 804 阅读 · 0 评论 -
重要比赛集锦
kaggle https://www.kaggle.com/ challenger.ai 全球AI调整赛 https://challenger.ai/ https://tianchi.aliyun.com/competition/index.htm 阿里天池大数据比赛原创 2018-07-11 17:50:25 · 158 阅读 · 0 评论 -
结合Scikit-learn介绍几种常用的特征选择方法
转自:https://blog.csdn.net/woaidapaopao/article/details/62461380 感谢我愛大泡泡的总结,感觉很不错特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟...转载 2018-04-20 15:40:05 · 224 阅读 · 0 评论 -
矩阵分解在推荐系统的应用以及python代码的实现
使用矩阵分解技术补充打分矩阵中空白部分原创 2017-07-27 18:42:54 · 8446 阅读 · 0 评论