SSeaflower-CSDN博客

原创 GPU版PyTorch安装教程(Windows系统)

windows系统GPU版本PyTorch安装

2025-03-11 21:58:14 3721

2.3.3 双链表双链表和链表一样，只不过每个节点有两个链接——一个指向后一个节点，一个指向前一个节点。此外，除了第一个节点，双链表还需要记录最后一个节点。每个结点为DLinkNode类对象，包括存储元素的列表data、存储前驱结点指针属性prior和后继结点的指针属性next。（一）双链表基本运算因为双链表知道自己的第一个节点和最后一个节点所在，所以访问它们都只需要1步，也就是需花O(1)时间。因此，我们不仅能在O(1)时间内从双链表开头读取、插入和删除数据，还可以在O(1)时间内在其结尾完

2024-11-12 17:11:47 1561

原创使用支持向量机和朴素贝叶斯对文本分类

SVM 通常能提供更高的准确率，特别是在数据量大且特征维数高的情况下。Naive Bayes 训练和预测速度快，适用于简单或中小规模的文本分类任务。

2024-05-06 23:25:12 1498 1

原创 LDA主题模型及Python实现

LDA(Latent Dirichlet Allocation)是一个三层贝叶斯概率模型，包括词、主题和文档三个层次。它可以将文档集中每篇文档的主题以概率分布的形式给出，从而通过分析一些文档抽取出它们的主题（分布）出来后，便可以根据主题（分布）进行主题聚类或文本分类。同时，它是一种典型的词袋模型，即一篇文档是由一组词构成，词与词之间没有先后顺序的关系。

2024-04-14 22:54:11 12938 17

原创向量空间模型在文档相似度上的应用

向量空间模型（Vector Space Model, VSM），是将文本表示为特定术语、词索引的向量，即通过已有的词典。它以空间上的相似度表达语义的相似度，当文档被表示为文档空间的向量，就可以通过计算向量之间的相似性来度量文档间的相似性。

2024-03-31 22:30:42 1817

原创文本特征词选择及TF-IDF算法应用

文本特征词选择，也称为关键词提取，是自然语言处理（NLP）中的一项重要任务，它的目的是从文本数据中识别出最能代表文本内容的词语。这些特征词能够用于**概括主题**，为文本分析、信息检索、内容摘要等应用提供基础。

2024-03-25 23:39:47 2499

原创 HMM分词训练与预测

隐马尔可夫模型（Hidden Markov Model，简称HMM）是一种统计模型，它用来描述一个含有隐藏未知参数的马尔可夫过程。在自然语言处理中，HMM经常用来进行词性标注、中文分词、语音识别等。

2024-03-24 00:13:08 1621

原创文本切分及jieba分词应用(2)

Jieba库是一款优秀的 Python 第三方中文分词库。Jieba的用途广泛，包括文本挖掘、自然语言处理等领域，能够有效地处理中文文本中的分词、词性标注等。Jieba分词自带了一个叫做dict.txt的词典，里面有34万+条词，其每行包含了词条、词条出现的次数和词性。

2024-03-18 23:31:33 1810

原创文本切分及jieba分词应用(1)

中文分词是指将连续的中文文本切分成有意义的符合语言习惯的词汇序列的过程。由于中文写作时不像英文那样在单词之间有明显的空格分隔，中文分词成为中文自然语言处理中的一项基础且关键的技术。正确的分词结果对于后续的文本处理任务，如词性标注句法分析情感分析等，都有着至关重要的影响。目前中文分词还是一个难题——对于需要上下文区别的词以及新词（人名、地名等）很难完美的区分。

2024-03-11 23:20:23 3193

原创网络爬虫——python爬取豆瓣评论

网络爬虫，又被称为网络蜘蛛（Web Spider）、网络机器人等。它根据网页地址（URL）爬取网页内容，网页地址（URL）就是我们在浏览器中输入的网站链接。例如：https://www.baidu.com；网络爬虫不仅能够复制网页信息和下载音视频，还可以做到网站的模拟登录和行为链执行。由于需要爬取的网站大多需要先登录才能正常访问，或者需要登录后的cookie值才能继续爬取，所以需要对网站模拟登录。有些网站设置了Referer防盗链，所以需要执行网页浏览行为链。

2024-03-09 22:21:09 7577

原创 python爬取豆瓣评论

comment_elements = comments_section.find_all('span', {'class': 'short'}) #10页以内可用。# comments_section = soup.find('div', {'class': 'mod-bd'}) #10页以内可用。print(f'数据已保存到 {output_filename}')data = {'评论内容': comments}# 解析HTML信息并提取评论信息。# 创建一个包含评论内容和评论时间的数据框。

2024-03-05 11:52:38 972

qq_36128101的博客