机器学习与数据挖掘
千千离
有梦想的咸鱼,做一个Transformer!
展开
-
sklearn_processing的几个重要的类
数据预处理sklearn的几个重要的类原创 2022-06-03 18:03:36 · 307 阅读 · 0 评论 -
词袋(简述)
概念:一种最简单却非常高效的模型就是只统计数据集中每个单词的出现次数词袋模型主要分为以下三种:1.第一种是使用词语实际出现次数作为词频。缺点是当 文档长度差异明显时,词频差距会非常大。2.第二种是使用归一化后的词频,每篇文档中所有词语 的词频之和为1。这种做法优势明显,它规避了文档长度对词频的影响。3.第三种,直接使用二值 特征来表示——单词在文档中出现值为1,不出现值为0。原创 2022-06-02 10:36:31 · 823 阅读 · 0 评论 -
N元语法(简述)
N元语法是指 由几个连续的词组成的子序列。①.比起用单个词作特征,使用N元语法能更好地描述文档.②.N元语法的计算方法跟计算单个词语相同,把构成N元语法的几个词看成是词袋中 的1个词。注:N元语法中的参数n,对于英语这门语言,一开始取2到5之间的值就可以, 有些应用可能要使用更高的值。例:当n取3时,我们从下面引文中抽取前几个N元语法Always look on the bright side of life.第一个N元语法(三元)是Always look on,第二个是look on the,第三个是on原创 2022-06-02 10:29:43 · 1134 阅读 · 0 评论 -
MovieLens数据集1M .源代码解析
利用python进行数据分析原创 2022-05-31 12:38:31 · 493 阅读 · 0 评论