数据挖掘
文章平均质量分 70
刚搬完砖
公众号: 刚搬完砖
搬砖之后,关于自然语言处理技术/推荐技术的一些总结与思考
展开
-
在pytorch中load超大训练数据
在pytorch中load超大训练数据by joeyqzhou相关代码地址: https://github.com/joeyqzhou/blog/tree/master/pytorch%E4%B8%ADload%E8%B6%85%E5%A4%A7%E8%AE%AD%E7%BB%83%E6%95%B0%E6%8D%AE最简单方式:1 单线程获取数据到内存中2 train的过程 for epoch in range(num_epochs): for i in range(i原创 2020-12-21 20:22:46 · 2356 阅读 · 1 评论 -
神经网络检索方法与一种结合local和distributed文本相似度算法
神经网络检索方法与一种结合local和distributed文本相似度算法by joeyqzhou基于频次的信息检索方法信息检索(IR), 简单说,就是给一个query, 返回与其最相关的doc. 传统的IR方法有tfidf, BM25, 它们主要考虑的是query中词语的确定性匹配(不能匹配到类似词)。即词在某篇候选doc中出现的次数(term frequency)和在所有doc中出现...原创 2020-03-27 17:58:21 · 820 阅读 · 0 评论 -
大数据工程师为什么要学习scala
>joey 周琦现在很多数据处理用的是python或R, 那么现在我们对比下scala和python在大数据处理方面的优劣: - scala与python对比 - scala 相对于c语言慢2-3倍,但是python一般比c语言慢50倍。(只是大概,实际会情况不同) - scala 缺少python那样丰富的数据处理,机器学习的包(Numpy, scipy, matplotl原创 2016-01-03 10:40:59 · 5678 阅读 · 1 评论 -
机器学习_论文笔记_2: bagging predictors ( BREIMAN[1996])
By joey周琦Bagging predictor可以产生多个版本的predictor, 并把这些predictor聚集(aggregate)为一个。这种策略对于不稳定的系统可以提高其精度。有一个学习数据集LL,包含数据(yn,xn),n=1,…,N{(y_n,x_n),n=1,\dots,N},其中xx为输入向量,yy或者为一个类(分类问题)或者数值(回归问题)。我们可以从数据集LL中学到一个原创 2015-09-07 16:17:39 · 2655 阅读 · 0 评论 -
机器学习_论文笔记_1: A few useful things to know about machine learning
by joey周琦希望把自己阅读到的,觉得有营养的论文,总结笔记和自己想法,留给自己,也分享给大家。因为英文论文中一些专有,有难度的词句,会给出英文原文。这篇文章总结了有关机器学习的12条重要,简单,明了的经验。本文面对分类问题总结,但不限于分类问题。学习=模型+评估+优化 Learning = representation + evaluation + optimization。repr原创 2015-09-06 13:34:54 · 2413 阅读 · 1 评论 -
机器学习算法之:指数族分布与广义线性模型
> 翻译总结By joey周琦参考NG的lecture note1 part3 本文将首先简单介绍指数族分布,然后介绍一下广义线性模型(generalized linear model, GLM), 最后解释了为什么逻辑回归(logistic regression, LR) 是广义线性模型的一种。指数族分布指数族分布 (The exponential family dist...原创 2015-09-03 20:45:50 · 15475 阅读 · 6 评论 -
Spark中分布式使用HanLP(1.7.0)分词d
Spark中分布式使用HanLP(1.7.0)分词HanLP分词(https://github.com/hankcs/HanLP),如README中所说,如果没有特殊需求,可以通过maven配置,如果要添加自定义词典,需要下载“依赖jar包和用户字典".本人一些经验:是直接"java xf hanlp-1.6.8-sources.jar" 解压源码,把源码加入工程(依赖本地jar包,有些麻...原创 2018-12-01 17:27:27 · 2060 阅读 · 4 评论 -
机器学习: ensemble learning
机器学习: ensemble learningensemble learning即把多个模型综合成一个模型。这样往往能达到不错的效果。原因为: 不同的模型可能采用了不同的数据、或对数据的刻画方式角度不一样;直觉上讲,如果一个问题从多个角度去看,那么效果往往会比从单角度看效果更好。各种ensemble的方法,据说在kaggle比赛中也有明显的效果ensemble的方式大致分几类:baggin...原创 2018-12-16 16:09:53 · 324 阅读 · 0 评论 -
总结ES的各种查询与打分方式:
总结ES的各种查询与打分方式:match_all: 查询所有字段match 查询某个字段,并且根据(tfidf or bm25)打分match_pharse 查询短语,区别于match他要考虑前后顺序. 可以设置slop=整数,来设定词语之间的最大距离term: 查询单个词(区别于match, 是查询没有被analysize的语料(即比如大小写转换。。)).terms: 查询多个词q...原创 2019-08-25 17:04:58 · 4019 阅读 · 0 评论