机器学习
文章平均质量分 57
love_data_scientist
这个作者很懒,什么都没留下…
展开
-
从0到1搭建推荐系统-02用户流量增长
用户增长原创 2022-11-08 13:18:25 · 157 阅读 · 0 评论 -
从0到1搭建推荐系统-01标签体系构建+内容审核体系构建
推荐系统中的标签原创 2022-11-08 10:57:01 · 737 阅读 · 0 评论 -
sklearn 增量学习
如果想用sklearn进行在线学习如何操作呢?https://scikit-learn.org/stable/modules/computing.html?highlight=incremental%20learningStrategies to scale computationally: bigger data a way to stream instances...原创 2020-02-03 22:43:29 · 1066 阅读 · 0 评论 -
learning to rank学习笔记
learning to rank是这几年火起来的一个学科,可以应用于检索、推荐等排序场景中。我们的业务场景大都和排序相关,那么掌握住learning to rank就又多了一条解决业务问题的方法。常见的排序算法:1.文本相关性计算方法:BM25,TF_IDF,word2vec等。2.图像相似度计算方法:平均哈希(aHash),感知哈希(pHash),差异值哈希。3.图文相关性使用g...原创 2018-09-29 19:52:17 · 372 阅读 · 0 评论 -
GPU服务器配置深度学习开发环境(cuda9.0,cudnn7.1.2,tensorflow-gpu1.9,pytorch1.0.0)
环境CentOS release 6.3Tesla P4anaconda2gcc4.8glibc-2.14tensorflow1.9pytorch1.0 第一步:安装NVIDIA驱动,使lspci | grep -i nvidia能够显示出来,nvidia-smi查看GPU使用情况参考https://blog.csdn.net/oTengYue/articl...原创 2018-12-24 16:27:41 · 659 阅读 · 0 评论 -
机器学习模型部署远程服务功能
框架 flaskexample1.sklearn 训练模型并保持import numpy as npfrom sklearn.linear_model import LinearRegressionfrom sklearn.utils import check_random_statefrom sklearn.externals import joblibn = 10...原创 2019-06-22 13:21:57 · 684 阅读 · 0 评论 -
使用pytorch中的bert模型获取句子向量为后续NLP任务做准备
1.安装pytorch-pretrained-BERTpip install pytorch-pretrained-bert我的python版本是3.62.下载模型和字典:模型和字典位置:https://s3.amazonaws.com/models.huggingface.co例如下载bert-base-cased.tar.gzhttps://s3.amazonaws...原创 2019-07-15 12:22:01 · 10308 阅读 · 4 评论 -
paddlepaddle-gpu的安装 cuda9.0 cudnn7.3.1
1.安装anaconda2.安装cuda9.0 cudnn7.3.13.安装paddlepaddle-gpu,遇到的问题:1.Failed to find dynamic library: libcublas.so ( libcublas.so: cannot open shared object file: No such file or directory )解决方法:定...原创 2019-07-12 12:24:00 · 2443 阅读 · 1 评论 -
pytorch构建自己数据集合
使用pytorch构建自己的训练和测试数据集合,涉及自己数据处理类,数据变为tensor,数据分割等,为后续的训练准备了训练数据和测试数据import torchfrom torch.utils.data import DataLoader, Dataset,TensorDataset,random_splitimport sysclass label_featureDataS...原创 2019-08-15 17:09:59 · 413 阅读 · 0 评论 -
linux系统从百度网盘中拉大文件数据
有些深度学习相关的数据集合很有用,而且数据量特别大,为了以后学习使用,通常保存到百度网盘中。有时候数据来源于比赛网站,不能直接使用wget url获得数据,可以先把数据保存到百度网盘,通过离线下载输入相应的url,进行数据保存。在linux命令行中,快速的拉取数据变的很有用了,结果自己的经历,特把成功过程总结如下。1.在谷歌浏览器中安装Tampermonkey插件(http://tampermon...原创 2018-07-12 17:11:30 · 804 阅读 · 0 评论 -
重要比赛集锦
kaggle https://www.kaggle.com/ challenger.ai 全球AI调整赛 https://challenger.ai/ https://tianchi.aliyun.com/competition/index.htm 阿里天池大数据比赛原创 2018-07-11 17:50:25 · 158 阅读 · 0 评论 -
推荐算法从入门、进阶到高级
推荐的算法的重要性我就不多说了,反正是各种重要。最近一段时间结合部门业务,我仔细的研究了各种推荐算法,在此我会附上相应的书籍和文献,帮助大家迅速的入门进阶,最终进入推荐算法的高手行列。推荐算法分为:1.协同的推荐算法;2.基于内容的推荐算法;3.混合的推荐算法在甩干货之前,补充一些常识:机器学习、深度学习、推荐算法和数据挖掘的关系?个人认为(而且好多资料中写道(具体什么资料这个...原创 2017-09-03 00:14:05 · 11614 阅读 · 2 评论 -
数据挖掘的流程----自己认为是最规范的
数据挖掘的目的是解决问题,不以解决问题的数据挖掘项目全是耍流氓,通过这一年半的工作经历,结合自己学习和工作中总结,特此呈现数据挖掘的一般流程问题 -->数据-->特征工程-->模型训练和诊断-->模型效果离线评估-->模型效果线上评估(小流量测试)-->模型上线1.问题:项目的成立的依据,比如给商户营销,推荐视频给用户等等。这个阶段要明确问题可以拆分的子问题,确定和数据挖掘原创 2017-09-03 00:55:55 · 609 阅读 · 0 评论 -
数据挖掘里面的特征工程
我在另一篇博客中写过《数据挖掘的流程----自己认为是最规范的》,里面描述了数据挖掘的完整的流程,这里我重点总结一些特征工程,不过不会特别细的写,因为目前有很多优质的博客文章存在。特征工程的方法大体可分三种方法:过滤式(Filter)、嵌入式(Embedded)和封装式(Wrapper)1.过滤式(Filter)这是最基本的特征选择方法,里面包括相似性检测方法、方差检测方法、熵的检测方原创 2017-09-03 10:52:05 · 1415 阅读 · 0 评论 -
《NLP汉语自然语言处理原理与实践》第一章
规则派还是统计派:1.规则派:以语言学理论为基础,根据语言学家对语言现象的认识,采用规则形式描述或解释歧义行为或歧义特性。规则派首先要对大量的语言现象进行研究,归纳出一系列的语言规则。然后再形成一套复杂的规则集----语言分析或生产系统,对自然语言进行分析处理。2.统计派:以基于语料库的统计分析为基础的经验主义方法,该方法更注重用数学,从能代表自然语言规律的大规模真实文本中发现知识原创 2017-09-11 10:59:29 · 4751 阅读 · 0 评论 -
文本数据挖掘-----词向量
中文数据挖掘的难点在于如何把文本变成计算机处理的向量,一个好的词向量方法可以提升分类或者其他应用效果。我把自己接触的词向量技术总结一下,方便自己复习和其他感兴趣的小伙伴交流学习。使用结巴或者其他中文分词工具分完词后就需要生成词向量了,方便后期的数据挖掘工作的展开。 词向量技术:我接触的大致可以分成(1)基于统计的方法(2)基于图的方法(3)基于主题模型的方法(4)基于深度学习原创 2017-11-06 19:01:11 · 2855 阅读 · 0 评论 -
深度学习框架---keras的层次示意图---方便直观理解---适用sklearn模型的展示
感觉keras确实比其他框架舒服一点,但是前期理解keras层的时候可能有点小问题,keras的层使用了原始神经网络层的概念,即先有上层的输出聚合,聚合后在进入激活函数。我的环境是python3.5+tensorflow+keras+graphviz+pydot_ng+pydotplus其中安装好Python3以及pip之后执行: pip install tensorflowpip install...原创 2017-11-25 23:25:11 · 1822 阅读 · 0 评论 -
矩阵分解在推荐系统的应用以及python代码的实现
使用矩阵分解技术补充打分矩阵中空白部分原创 2017-07-27 18:42:54 · 8446 阅读 · 0 评论 -
结合Scikit-learn介绍几种常用的特征选择方法
转自:https://blog.csdn.net/woaidapaopao/article/details/62461380 感谢我愛大泡泡的总结,感觉很不错特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟...转载 2018-04-20 15:40:05 · 224 阅读 · 0 评论