机器学习--应用：评估帖子相关性

最新推荐文章于 2024-01-15 11:34:32 发布

anualday

最新推荐文章于 2024-01-15 11:34:32 发布

阅读量648

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/anualday/article/details/50351824

版权

本文介绍了使用Python Scikit learn库和nltk工具包来评估帖子的相关性。首先，将原始文本转化为词袋模型，统计词语个数并转为向量。接着进行词频向量的归一化，使用了英文停用词表。然后进行了词干处理，使用nltk的SnowballStemmer。最后，通过TF-IDF计算帖子的相似度。

摘要由CSDN通过智能技术生成

一工具：python4.3，Scikit learn库，nltk（自然语言处理工具包），参考资料：《机器学习系统设计》

二步骤：

1、将原始文本转化为词袋：统计词语个数，并把词频转化为向量。

from sklearn.feature_extraction.text import CountVectorizer

注意点：1）打开文件：os.path.join()连接两个文件名地址的时候，就比os.path.join("D:\","test.txt")结果是D:\test.txt

from utils import DATA_DIR

TOY_DIR = os.path.join(DATA_DIR, "toy")
posts = [open(os.path.join(TOY_DIR, f)).read() for f in os.listdir(TOY_DIR)]

new_post = "imaging d

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

anualday

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python 多维向量相似度计算_如何计算两篇文章的相似度？

weixin_39658726的博客

12-20

2204

基础知识预备：1.什么是空间向量：空间中具有大小和方向的量叫做空间向量。向量的大小叫做向量的长度或模（modulus)空间向量的坐标表示：A(x,y ,z)2.空间向量的运算：空间向量的坐标运算：设a=(x1,y1,z1)，b=(x2,y2,z2)|a|= (根据勾股定理)a+b=(x1+x2,y1+y2,z1+z2)a-b=(x1-x2,y1-y2,z1-z2)ka=k(x1,y1,z1)=(k...

特征提取的方法

rosenor1的博客

08-30

3万+

机器学习系列：(三)特征提取与处理　　　　特征提取与处理　　上一章案例中的解释变量都是数值，比如匹萨的直接。而很多机器学习问题需要研究的对象可能是分类变量、文字甚至图像。本章，我们介绍提取这些变量特征的方法。这些技术是数据处理的前提——序列化，更是机器学习的基础，影响到本书的所有章节。　　分类变量特征提取　　许多机器学习问题都有分类的

1 条评论您还未登录，请先登录后发表或查看评论

NLTK 入门

weixin_48262500的博客

05-15

327

NLTK 模块是一个巨大的工具包，目的是在整个自然语言处理（NLP）方法上帮助你。 NLTK 将为你提供一切，从将段落拆分为句子，拆分词语，识别这些词语的词性，高亮主题，甚至帮助你的机器了解文本关于什么。分词 - 将文本正文分割为句子和单词。词性标注 机器学习与朴素贝叶斯分类器如何一起使用 Scikit Learn（sklearn）与 NLTK 用数据集训练分类器用 Twitter 进行实时的流式情感分析。 #Loading the data set - training dat

机器学习（二十四）——常见模型评估方法

livan1234的博客

07-04

1万+

笔者是一个痴迷于挖掘数据中的价值的学习人，希望在平日的工作学习中，挖掘数据的价值，找寻数据的秘密，笔者认为，数据的价值不仅仅只体现在企业中，个人也可以体会到数据的魅力，用技术力量探索行为密码，让大数据助跑每一个人，欢迎直筒们关注我的公众号，大家一起讨论数据中的那些有趣的事情。我的公众号为：livandata

CountVectorizer

dxm809的博客

06-11

189

import sklearn from sklearn.feature_extraction.text import CountVectorizer vector = CountVectorizer() res = vector.fit_transform(["life is short,I like python","life is long,I dislike python"]) print(vector.get_feature_names()) print(res.toarray()) .

Deep Learning Approach for Aspect-Based Sentiment Classification: A Comparative Review

afanti_1的博客

04-14

560

基于方面的情感分类的深度学习方法：对比综述

【机器学习】常见的四种“回归”算法 - 概述及实战

热门推荐

迷茫与徘徊只会让你陷入绝境，欢迎私信博主，带你开始提升变现价值！

02-14

7万+

目录走进XGBoost 什么是XGBoost？ XGBoost树的定义 XGBoost核心算法正则项：树的复杂程度 XGBoost与GBDT有什么不同 XGBoost需要注意的点 XGBoost重要参数详解调参步骤及思想 XGBoost代码案例 相关性分析 n_estimators（学习曲线） max_depth（学习曲线）调整max_depth 和min_child_weight 调整gamma 调整subsample 和colsample_bytree 调整正则

机器学习笔记——皮尔逊相关系数

三分地

05-06

1万+

sklearn.feature_extraction.text.TfidfVectorizer函数说明

笔记铺子

02-02

7418

转载自：http://blog.csdn.net/hutao1101175783/article/details/74618205 class sklearn.feature_extraction.text.TfidfVectorizer（input = u'content'，encoding = u'utf-8'，decode_error = u'strict'，strip_acc

机器学习折腾记（3-1）：自然语言处理（NLP）初探

mickjoust的技术小屋

04-23

2513

彼得·德鲁克说，我们总是高估一年的变化，而低估了五年十年的变化，因为我们总是忘记“复利”的存在。（《卓有成效的管理者》） 机器学习虽然很受欢迎，但是真当要静下心来学习时，我们遇见的困难又是巨大的，面对很高的学习成本，与陡峭的学习曲线，有时并不只是单单说一两句坚持就能做好的。比如，我们可能需要下面的相关的基础知识—— 1、基本数学知识 2、线性代数 3、微积分 4、概...

机器学习--K-means算法（聚类，无监督学习）

anualday的博客

12-15

6620

一、基本思想聚类属于无监督学习，以往的回归、朴素贝叶斯、SVM等都是有类别标签y的，也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y，只有特征x，比如假设宇宙中的星星可以表示成三维空间中的点集。聚类的目的是找到每个样本x潜在的类别y，并将同类别y的样本x放在一起。比如上面的星星，聚类后结果是一个个星团，星团里面的点相互距离比较近，星团间的星星距离就比较远了。二、算法步

机器学习--岭回归与偏最小二乘

anualday的博客

12-16

3461

一、回归回归就是数据进行曲线拟合，回归一般用来做预测，涵盖线性回归（经典最小二乘法）、局部加权线性回归、岭回归和逐步线性回归。二、一般线性回归遇到的问题在处理复杂的数据的回归问题时，普通的线性回归会遇到一些问题，主要表现在：预测精度：这里要处理好这样一对为题，即样本的数量和特征的数量时，最小二乘回归会有较小的方差时，容易产生过拟合时，最小二乘

机器学习--主题模型&检测劣质答案

anualday的博客

12-24

1330

一、主题研究 1、潜在狄利克雷分配 sklearn 不支持潜在狄利克雷分配，可以使用python中的genism包 2、稀疏性当你有一个很大的矩阵或者向量的时候，基本上大多数的值都是0，因此，在任何时候，只有一小部分数据时相关的。 3、选择主题个数主题模型通常是一个面向目标的终端服务，在这种情况下，你具体选择了哪些参数并不总是很重要，不同的主题数或者参数值会得到效果几乎相同的系统。

机器学习--贝叶斯分类器

anualday的博客

12-21

834

一、最简单的来讲，利用贝叶斯变换公式的分类算法就是贝叶斯分类器。先验概率和后验概率公式：二、朴素贝叶斯分类器 1、思想：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。 2、算法流程第一阶段——准备工作阶段，这个阶段的任务是为朴素贝叶斯分类做必要的准备，主要工作是根据具体情况确定特征属性，并对每个特征属性进行适当划分

机器学习简单算法整理

anualday的博客

12-10

794

今天整理了一下简单的机器学习算法。打算按照这个提纲学习代码实现，不一定按顺序，但希望自己每学习一个都能了解透彻。打算寒假前就仔细研究这块了。一、Regression(回归） Ordinary Least Squares普通最小二乘法Logistic Regression逻辑回归Stepwise Regression逐步回归Multivariate Adaptive Regressio

Scikit-learn入门教程：机器学习实战

在机器学习领域，Scikit-learn是一个广泛使用的开源库，它提供了丰富的算法和工具，简化了数据预处理、模型选择和评估的过程。本课程首先介绍了机器学习的基本概念，定义机器学习为一门研究计算机如何通过经验自动...