数据挖掘
Braylon1002
这个作者很懒,什么都没留下…
展开
-
python知网爬虫论文pdf下载+立即可用(动态爬虫)
python实现动态爬虫知网论文,搜索+自动翻页+下载收集数据利器原创 2024-03-09 19:18:10 · 2389 阅读 · 2 评论 -
pytorch使用预训练好的gensim词嵌入模型
文章目录简介官方词嵌入模型pytorch 加载gensim Word2Vec简介其实我自己对于embedding的原理和结构都比较熟悉了,同时也使用过很多次了,但是在一次需要用到预训练好的开源Word2Vec的时候我竟然发现自己不知道怎么将.bin文件的权重加载到nn.Embedding上。很简单和基础的操作如果没有自己亲手做过的话确实感觉很生疏,并且在真正实现的过程中会出现一些问题:nn.Embedding加载gensim word2vec模型预训练模型中的词表和自己数据的词表的融合去除多余原创 2021-01-28 15:14:15 · 3014 阅读 · 1 评论 -
标签平滑 label smoothing
文章目录简介什么是label smoothinglabel smoothing作用torch实现label smoothing简介label smoothing其实是机器学习和深度学习上比较常用的一个小 trick。这里简单做一些记录。什么是label smoothing什么是标签平滑呢?这里举一个例子:面对一个多分类问题假设我们的当前对于xi的ground truth 是[0, 0, 0, 1]说明对于xi来说他属于第四类,但是一般来说我们输出的会是经过softmax激活的一个概率向原创 2020-10-27 16:17:51 · 2699 阅读 · 3 评论 -
信息检索导论第十八章笔记(英文)
Matrix decompositions and latent semantic indexingterm-document matrix: an M * N matrix C, each of whose rows represents a term and each of whose columns represents a document in the collection.develop a class of operations from linear algebra, known as原创 2020-10-07 13:25:15 · 362 阅读 · 0 评论 -
信息检索导论第十六章笔记(英文)
文章目录Flat clusteringAbstractClustering in information retrivalSearch result clusteringScatter gatherProblem statementEvaluation of clusteringK-MeansModel-based clusteringFlat clusteringAbstractClusterClustering algorithms group a set of documents into原创 2020-09-23 10:24:48 · 771 阅读 · 0 评论 -
信息检索导论第十四章笔记(英文)
文章目录Vector space classificationAbstractDocument representations and measures of relatedness in vector spacesRocchio classificationK nearest neighborLinear versus nonlinear classifierClassification with more than two classesThe bias-variance tradeoffVector原创 2020-09-21 10:06:31 · 1037 阅读 · 0 评论 -
信息检索导论第十三章笔记(英文)
文章目录Text classification and Naive NayesAbstractThe text classification problemNaive Bayes text classificationThe Bernoulli modelProperties of Naive BayesA variant of the multinomial modelFeature selectionMutual informationχ^2 Feature selectionFrequency-bas原创 2020-09-16 23:44:05 · 709 阅读 · 0 评论 -
信息检索导论第十二章笔记(英文)
文章目录Language models for information retrievalAbstractLanguage ModelTypes of language modelsMultinomial distributions over wordsThe query likelihood modelEstimating the query generation probabilityLanguage modeling versus other approachesin information retr原创 2020-09-11 12:30:17 · 616 阅读 · 0 评论 -
信息检索导论第十一章笔记(英文)
文章目录Probabilistic information retrievalAbstractBasic probability theoryPRP0/1 loss caseretrieval costsBIMProbability estimates in theoryProbability estimates in practiceProbabilistic approaches to relevance feedbackMajor AssumptionsTree-structured depende原创 2020-09-08 22:37:22 · 584 阅读 · 0 评论 -
gensim使用word2vec处理时序数据
文章目录简介处理流程数据预处理使用gensim生成w2vpickle存储读取w2v简介word2vec大多数人知道是NLP一种预处理编码技术,但是我个人通过数据竞赛和推荐系统方面的学习发现word2vec在竞赛和推荐等场景使用也非常多。如果你想做NLP的w2v,其实我比较推荐使用sklearn中自带的库,因为使用gensim本身对输入有一些处理,比如:gensim会自动去掉停用词,也就是说gensim不能得到停用词的embgensim也不对I这种单个字母的生成emb等等(我有点记不清了,但是确原创 2020-09-04 14:53:43 · 1016 阅读 · 0 评论 -
Word2Vec图文详解+代码分析
文章目录简介原理代码分析最后简介“i do not love coding”,对于这样一句话,计算机是看不懂的,也不能直接进行输入,所以我们需要对他进行编码,让计算机能够看懂。那么可能我们会第一时间想到onehot,是的经过onehot之后计算机确实可以进行处理了,但是会存在下面这个问题:假设我们现在的语料库只有这五个单词,那么vocab_size = 5下面这张图请大家忽略一些nlp上面的预处理问题,我为了给大家说明白所以举的例子比较直白,另外coding和like是我故意换的位置,我怕和pos原创 2020-09-04 12:04:09 · 1176 阅读 · 1 评论 -
feature column浅析和pytorch实现
文章目录简介feature columntorch实现有哪几类特征各个类依赖关系git地址简介一提到feature column我相信大部分人都想到的是tf中的类。但是我自己一直好奇为什么pytorch没有一个官方的feature column类,导致每次使用还需要自己写预处理的逻辑。所以我也实现了一个简单的torch feature col。当然了,我写的比较简单,处理一般的比赛数据或者小数据还是可以的,不过这样也对他的功能和机理有了比较清楚的了解。feature column为什么需要有fea原创 2020-09-01 22:05:36 · 1407 阅读 · 0 评论 -
信息检索导论第十章笔记(英文)
XML RetrievalAbstractThere are fundamental differences between IR and database systems in terms of retrieval model, data structures, and query language.In the chapter, we look at how ranked retrieval methods can be adapted to structured documents to ad原创 2020-08-31 13:28:29 · 1134 阅读 · 0 评论 -
信息检索导论第九章笔记(英文)
文章目录Relevance feedback and query expansionAbstractRelevance feedback and pseudo relevance feedbackProbabilistic relevance feedbackWhen does relevant feedback workEvaluation of relevance of feedback strategiesPseudo relevance feedbackIndirect relevance feed原创 2020-08-14 15:48:28 · 1042 阅读 · 0 评论 -
信息检索导论第八章笔记(英文)
文章目录AbstractInformation retrieval system evaluationEvaluation of unranked retrieval setsEvaluation of ranked retrieval resultsAssessing relevanceA broader perspective: System quality and user utilityResults snippetsAbstractIn the section 1, it will discu原创 2020-08-14 15:41:08 · 1418 阅读 · 0 评论 -
信息检索导论第七章笔记(英文)
文章目录AbstractEfficient scoring and rankingIndex EliminationChampion listsStatic quality scores and orderingCluster pruningComponents of an information retrieval systemTiered indexesQuery term proximityA Search engineDesigning parsingScoring functionAbstrac原创 2020-08-14 15:35:56 · 742 阅读 · 0 评论 -
信息索引导论第六章笔记(英文)
AbstractAccording to content of past five chapters, we have got the results of matching documents. Nervertheless, in the case of large document collections, the resulting number of matching documents can far exceed the number a human user could possibly s原创 2020-08-14 15:30:27 · 1076 阅读 · 0 评论 -
信息索引导论第四章笔记(英文)
AbstractIn chapter 4, it focuses on how to contrust an inverted index, which is called index contruction or indexing. In terms of the constrain of hardware, we need to introduce new idea to avoid the effect of computer hardware that are relevant for index原创 2020-07-29 10:37:36 · 962 阅读 · 0 评论 -
信息索引导论第三章笔记(英文)
AbstractIn the forward two chapters, the authors have developed ideas underlying inverted indexes for handling boolean and proximity queries. However, we still find a better approach to improve the Robustness to typographical errors. According to that, th原创 2020-07-29 10:33:59 · 825 阅读 · 0 评论 -
信息索引导论第二章笔记(英文)
AbstractIn chapter 2, there are four main problems which are relevant to the process of major steps in inverted index construction. First of all, make clear how the basic unit of a document can be defined and how the character sequence that it comprises i原创 2020-07-17 15:14:22 · 1172 阅读 · 0 评论 -
信息索引导论第一章笔记(英文)
AbstractThe first chapter of this book mainly introduces some crucial concepts and basic knowledges, comprising what the IR is, three categories depending on the size of data scale, the development from grepping to indexing approach and how to evaluate t原创 2020-07-17 15:09:24 · 1405 阅读 · 0 评论 -
感知机(一) latex手打公式 良心推导 原理分析 个人理解
文章目录简介引入怎么确定划分规则呢感知机数学原理ax+b和wx+b寻找损失函数间隔的度量函数间隔几何间隔点到超平面距离的证明损失函数梯度下降法进行优化简介本来应该在贝叶斯和SVM之前推出感知机的,但是感知机这边原来整理的有些东西有点模糊了,现在赶紧补上。先分享感知机(一),后面还会有(二)。正文开始。引入当前比较应景的就是全球趋势的新冠疫情,我们可以借用已经举一个例子帮助大家理解。现在我们需要建立一个模型判断一个人是否被感染,然后我们只有每个人的两种特征(x1, x2)。x1: 咳嗽的频率(原创 2020-06-25 21:33:29 · 1227 阅读 · 0 评论 -
朴素贝叶斯 latex手打公式 良心推导 原理分析 个人理解
文章目录简介怎么计算P(Y|X)怎么计算P(X=x|Y=yc)得到最终的判别公式判别公式优化求解P(Y = yc)求解P(X^(i)=x^(i)|Y=yc)例题分析朴素贝叶斯算法总结:朴素贝叶斯 和 贝叶斯总结简介我认为朴素贝叶斯的真正灵魂就是概率。先请大家看一个有趣的概率问题:三门问题有趣的概率 三门问题可能有的有点远了,哈哈,再看一个真实的OCR例子吧。现在有10个首先的训练集数据,从0到9的手写数字图片。然后现在输入一个数字Y,那么请问这个数字是几呢?朴素贝叶斯老师会怎么做嘞?他会原创 2020-06-24 12:29:55 · 1816 阅读 · 0 评论 -
难道朴素贝叶斯比贝叶斯朴素?
文章目录简介为什么要有贝叶斯估计贝叶斯估计举例简介摘自李航老师原著,主要是作为自己的学习笔记。感兴趣同学,建议大家阅读原著。为什么要有贝叶斯估计我们知道朴素贝叶斯中有很多的概率连乘,但是很可能出现一个P(X(i) = x(i)|Y=yc)= 0那么得到的整个式子的概率起不就成为0了。这肯定是不对的。所以为了改变这种情况,就产生了贝叶斯。‘所以我还是同意说“朴素贝叶斯”比“贝叶斯”要朴素一些的,哈哈~贝叶斯估计他用来解决连乘中出现0的情况。如果原来是0,那么还是得保证调整完之后的值依然很小,这原创 2020-06-24 12:09:38 · 325 阅读 · 0 评论 -
SVM(二) latex手打公式 良心推导 原理分析 个人理解
文章目录简介SVM(二)软间隔核函数SMO优化SMO优化过程往期博客SVM(一) latex手打公式 良心推导 原理分析 个人理解简介这一篇主要是衔接上一个SVM(一),主要是软间隔、核函数和SMO的分享。建议没有读过第一篇的先看看第一篇blog。这一篇直接接着上一篇blog。SVM(二)软间隔上一次我们介绍了SVM的原理,但是不是所有的样本都能如我们的心意,比如这种情况:很明显一个规则的超平面不能很好的将两类样本进行分割,所以我们引入了软间隔,哦哦,不是我引入的,那些科学家们就引入了。原创 2020-06-18 16:27:30 · 769 阅读 · 0 评论 -
牛客网sql练习题解(12-21)
文章目录简介NO.12NO.13NO.14NO.15NO.16NO.17NO.18NO.19NO.20NO.21简介按时来更,感觉题目不是很难,不过我有一个感觉就是虽然题目简单不过如果你只是靠上课知道的那些东西而不亲自动手的话会出现眼高手低的问题。总之,如果大家有兴趣不妨看看,haha。下面的目录是对应的题号NO.12select de.dept_no, de.emp_no, max(s.salary) as salaryfrom dept_emp de left join salaries原创 2020-06-04 15:50:46 · 534 阅读 · 0 评论 -
牛客网sql练习题解 (1-11)
文章目录简介题解1234 + 567891011简介我将分批总结牛客网sql题解,当然leecode也是我比较推荐的sql在线OJ,至于为什么我不写leecode,是因为我不是会员,hahah~题解1其实是一个topN问题select * from employeesorder by hire_date desc limit 1;或者是:select * from employeesorder by hire_date desclimit 1 offset 0;或者是:原创 2020-06-01 11:00:12 · 1015 阅读 · 2 评论 -
影响力最大化 RIS 反向影响力采样算法
文章目录影响力最大化RIS算法简介随机反向可达集最大贪婪覆盖算法算法近似比时间复杂度源代码影响力最大化RIS算法简介对于影响力最大化问题,我以前写过几个blog影响力最大化 IC模型+贪心算法影响力最大化 模拟爆发(粗糙笔记)影响力最大化 IC 蒙特卡洛模拟 贪心算法影响力最大化 IMRank 我心中的最优算法影响力最大化 CELF 成本效益延迟转发算法这篇文章主要是介绍一种解决静态网络的影响力最大化问题,RIS方法是Reverse Influence Sampling,反向影响力采样,这原创 2020-05-29 12:32:20 · 4090 阅读 · 0 评论 -
SVM(一) latex手打公式 良心推导 原理分析 个人理解
文章目录SVM简介问题导入最优超平面间隔的度量函数间隔几何间隔点到超平面距离的证明如何解决线性不可分数据样本为什么SVM是无穷维求解最小几何间隔拉格朗日乘子法损失函数求解推导支持向量SVM简介我相信这个算法很多人都知道,并且很多人都认为自己掌握的非常熟练了,这篇博客我准备了很久,其实这并不是我刚刚学习了SVM,而是学了很多用了很多时候从头再进行思考和总结,把自己会的东西给别人讲明白真的是一件不容易的事情。我将利用很多我自己画的图片帮助大家理解,同时latex手打公式帮助大家进行部分重要公式的推导和分原创 2020-05-27 20:58:41 · 1272 阅读 · 0 评论 -
拉格朗日乘子法 latex手打公式 良心推导
文章目录拉格朗日乘数法简介等式约束问题明确问题基础知识推导构造求极值不等式约束问题明确问题问题转化拉格朗日乘数法简介简单概括一下拉格朗日乘子法用来解决具有约束的最值问题。那么其中主要有两个比较重要的问题需要解决:等式约束问题不等式约束问题等式约束问题其中我认为最重要的其实就是等式约束问题,因为不等式最终也可以转化为这第一种问题,至于怎么转化我们后面再讲,现在我们想搞懂如何解决等式约束问题。明确问题上面就是我们需要解决的问题。基础知识首先我们明确一些前提条件,这也是我们求解的基础原创 2020-05-24 11:27:09 · 2605 阅读 · 0 评论 -
networkx igraph相互转换+效率比较
文章目录简介网络生成方法igraphigraph转networkxigraph networkx运算效率传播模型方法效率比较源代码:其他影响力最大化文章:影响力最大化 IC模型+贪心算法影响力最大化 模拟爆发(粗糙笔记)影响力最大化 IC 蒙特卡洛模拟 贪心算法影响力最大化 IMRank 我心中的最优算法影响力最大化 CELF 成本效益延迟转发算法简介对于网络的计算,networkx、igraph-python这两种工具包相信是大家的首选,当然了还有邻接矩阵Adjacency matrix或原创 2020-05-16 17:08:23 · 4152 阅读 · 0 评论 -
影响力最大化 CELF 成本效益延迟转发算法
文章目录简介CELF——Cost Effective Lazy Forward Algorithm算法原理算法实现代码实现实例测试简介对于影响力最大化问题,我以前写过几个blog影响力最大化 IC模型+贪心算法影响力最大化 模拟爆发(粗糙笔记)影响力最大化 IC 蒙特卡洛模拟 贪心算法影响力最大化 IMRank 我心中的最优算法这篇文章采用CELF的算法来解决影响力最大化问题。CELF——Cost Effective Lazy Forward Algorithm这个算法是在2007年提出的原创 2020-05-12 22:50:15 · 3074 阅读 · 5 评论 -
影响力最大化 IC 蒙特卡洛模拟 贪心算法
文章目录简介IC 独立级联算法蒙特卡洛和LT线性阈值实现基于蒙特卡洛模拟的IC模型简介引入库函数测试图蒙特卡洛模拟贪心求最大影响力源代码简介个人对于影响力最大化这个问题本身比较感兴趣,这是我原来写过的链接:影响力最大化 IMRank 我心中的最优算法影响力最大化 模拟爆发(粗糙笔记)影响力最大化 IC模型+贪心算法这一偏还是基于贪心算法的IC模型,但是原来写的是基于LT的IC,也就是线性阈值的独立级联模型。而这一篇我使用的是蒙特卡洛模拟的方法实现IC。那么我们就先来看看到底有什么区别。IC原创 2020-05-10 16:13:05 · 6956 阅读 · 5 评论 -
先用再理解 一个模板解决sql窗口函数问题
文章目录简介窗口函数经典窗口函数rank()dense_rank()row_number()经典问题topN输出排名问题简介我来说说我这blog的题目吧,为什么起这个名字。“先用再理解”:首先我认为sql这东西不是什么门槛很高的技能,当然你想写的好、运行比别人快是需要下不少功夫的。但是我们至少要先用起来,或者是从效率低的写法开始,慢慢的你会感受到更好的方法的。总之,先用就对了,实践起来。“...原创 2020-05-03 19:13:27 · 571 阅读 · 0 评论 -
scrapy爬取动态页面
文章目录简介查看目标网站代码部分简介现在在整理原来写过的东西,这是一个比较简单的爬虫项目,就是进行动态页面的爬取,主要的难点是实现模拟点击。查看目标网站查看目标网站:但是这不是我们的目标,我们要爬取的是点击热搜榜之后的热搜话题:是这样的:然后才能爬取,所以这是一个爬取动态页面的项目。这里我用到了selenium库进行模拟操作,首先使用该库模拟点击然后进行数据的爬取。要在sc...原创 2020-04-30 22:01:29 · 7083 阅读 · 2 评论 -
垃圾邮件分类 jieba+bayes
文章目录简介数据集代码导入库函数读取数据分词并去掉停用词模型构建简介本身我对文本方面的比如自然语言处理什么的钻研的不多,这里是我之前写的邮件分类,用的方法其实是很简单的算法,同时这种处理方式可以说是最常用的文本处理技巧。下下来一个是为了自己记录一下,当然如果您刚刚入门机器学习或者NLP,能给您一些帮助也最好不过了。数据集垃圾邮件普通邮件当然还有测试集:这里我使用的数据...原创 2020-04-30 20:06:21 · 1494 阅读 · 2 评论 -
图像处理 cv2 PIL OCR
文章目录简介图片基本操作灰度转换底片模式filteropencv中的基本操作图片属性图片缩放仿射变换HSVGamma变换OCR简介这里介绍一下Python的图像处理,其中使用了比较常见的库,一个是opencv另一个是PIL,都是功能很强大的图像处理库。这算是我的一篇笔记文章,以往以后忘记。首先介绍一下基本的图片操作,然后给大家一个OCR手写识别的例子。现在网络上卷积网络识别手写数字的代码简...原创 2020-04-21 10:20:29 · 783 阅读 · 0 评论 -
sql排序输出第n个字段 方法汇总
标题方法一:limit A offset Bselect distinct Salary as SecondHighestSalaryfrom Employee order by Salary Desclimit 1 offset 1;由于没有考虑如果没有第二个字段怎么办。改进:select (select distinct Salary as SecondHighestS...原创 2020-04-10 20:15:57 · 494 阅读 · 1 评论 -
多表合并 你不知道的暗黑技巧
简介最近学习sql,其实原来一直瞧不起觉得sql有什么难的,结果发现,你虽然能达到你想要的结果,但是效率比人家慢了一倍。如果数据量再大个几十倍呢,那可就不是几百毫秒的差别了。多表合并先来看看我的写法:select FirstName, LastName, City, Statefrom Person left join Addresson Person.PersonId=Addres...原创 2020-04-10 19:46:28 · 159 阅读 · 0 评论 -
影响力最大化 IMRank 我心中的最优算法
文章目录简介IMRank (边缘爆破)算法思路效率分析代码实现简介对于影响力最大化问题,我以前写过两个blog影响力最大化 IC模型+贪心算法影响力最大化 模拟爆发(粗糙笔记)但是,对于这两个方法都不是最优的:对于IC模型模型使用了贪心算法,然后遍历激活结点,每一次遍历将可能被激活的结点按照概率激活。然后选择影响力最大的组合。对于我测试使用的邻接矩阵的大小是200*200的,也...原创 2020-04-08 21:00:09 · 6586 阅读 · 29 评论