自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 使用支持向量机和朴素贝叶斯对文本分类

SVM 通常能提供更高的准确率,特别是在数据量大且特征维数高的情况下。Naive Bayes 训练和预测速度快,适用于简单或中小规模的文本分类任务。

2024-05-06 23:25:12 804

原创 LDA主题模型及Python实现

LDA(Latent Dirichlet Allocation)是一个三层贝叶斯概率模型,包括词、主题和文档三个层次。它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文本分类。同时,它是一种典型的词袋模型,即一篇文档是由一组词构成,词与词之间没有先后顺序的关系。

2024-04-14 22:54:11 5676 13

原创 向量空间模型在文档相似度上的应用

向量空间模型(Vector Space Model, VSM),是将文本表示为特定术语、词索引的向量,即通过已有的词典。它以空间上的相似度表达语义的相似度,当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。

2024-03-31 22:30:42 1294

原创 文本特征词选择及TF-IDF算法应用

文本特征词选择,也称为关键词提取,是自然语言处理(NLP)中的一项重要任务,它的目的是从文本数据中识别出最能代表文本内容的词语。这些特征词能够用于**概括主题**,为文本分析、信息检索、内容摘要等应用提供基础。

2024-03-25 23:39:47 1192

原创 HMM分词训练与预测

隐马尔可夫模型(Hidden Markov Model,简称HMM)是一种统计模型,它用来描述一个含有隐藏未知参数的马尔可夫过程。在自然语言处理中,HMM经常用来进行词性标注、中文分词、语音识别等。

2024-03-24 00:13:08 1174

原创 文本切分及jieba分词应用(2)

Jieba库是一款优秀的 Python 第三方中文分词库。Jieba的用途广泛,包括文本挖掘、自然语言处理等领域,能够有效地处理中文文本中的分词、词性标注等。Jieba分词自带了一个叫做dict.txt的词典,里面有34万+条词,其每行包含了词条、词条出现的次数和词性。

2024-03-18 23:31:33 1080

原创 文本切分及jieba分词应用(1)

中文分词是指将连续的中文文本切分成有意义的符合语言习惯的词汇序列的过程。由于中文写作时不像英文那样在单词之间有明显的空格分隔,中文分词成为中文自然语言处理中的一项基础且关键的技术。正确的分词结果对于后续的文本处理任务,如词性标注句法分析情感分析等,都有着至关重要的影响。目前中文分词还是一个难题——对于需要上下文区别的词以及新词(人名、地名等)很难完美的区分。

2024-03-11 23:20:23 2219

原创 网络爬虫——python爬取豆瓣评论

网络爬虫,又被称为网络蜘蛛(Web Spider)、网络机器人等。它根据网页地址(URL)爬取网页内容,网页地址(URL)就是我们在浏览器中输入的网站链接。例如:https://www.baidu.com;网络爬虫不仅能够复制网页信息和下载音视频,还可以做到网站的模拟登录和行为链执行。由于需要爬取的网站大多需要先登录才能正常访问,或者需要登录后的cookie值才能继续爬取,所以需要对网站模拟登录。有些网站设置了Referer防盗链,所以需要执行网页浏览行为链。

2024-03-09 22:21:09 4592

原创 python爬取豆瓣评论

comment_elements = comments_section.find_all('span', {'class': 'short'}) #10页以内可用。# comments_section = soup.find('div', {'class': 'mod-bd'}) #10页以内可用。print(f'数据已保存到 {output_filename}')data = {'评论内容': comments}# 解析HTML信息并提取评论信息。# 创建一个包含评论内容和评论时间的数据框。

2024-03-05 11:52:38 561

常用词典(包含知网Hownet、THUOCL词库、台湾大学NTUSD、清华大学和大连理工大学情感词典等)

常用词典(包含知网Hownet、THUOCL词库、台湾大学NTUSD、清华大学和大连理工大学情感词典等)

2024-03-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除