自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 *Python*简单自动化脚本

Python主要依赖于第三方库的应用与实现,其中主要使用了os、requests、BeautifulSoup等库的使用。网页数据提取:使用requests和BeautifulSoup等库从网页中提取所需的数据,如文本、图片等。数据清洗:多个文件数据清洗,其中包括数据类型转换、异常值处理、缺失值处理、重复值处理等。查找和替换文本:在文件中查找特定文本并替换为所需文本,适用于文档编辑和批量修改。自动化文件排序:根据文件扩展名将文件分类到不同的子目录中,以组织文件结构。

2024-09-11 11:53:50 263

原创 *Python*机器学习算法——逻辑回归(Logistic Regression)

在评估方面,准确率、混淆矩阵和 AUC-ROC 曲线提供了全面的评价指标,帮助我们更好地理解模型的表现。而在实际应用中,逻辑回归被广泛用于信用评分、医疗诊断和市场营销等多个领域,展示了其强大的实用价值。本文将简单介绍逻辑回归的基本原理、模型构建、损失函数与优化方法、参数调整、模型评估以及应用场景。混淆矩阵:提供了更详细的分类结果信息,包括真阳性(TP)、假阳性(FP)、真阴性(TN)和假阴性(FN)。使用梯度下降法更新参数: 根据损失函数对参数的梯度来调整参数值,以最小化损失函数。

2024-09-10 14:26:22 908

原创 *Python*机器学习算法——神经网络和深度学习

通过以上代码示例,我们详细介绍了神经网络和深度学习中的几个关键知识点,包括激活函数(ReLU、Sigmoid、Tanh)、损失函数(MSE、交叉熵损失)、优化器(SGD、Adam、RMSprop)、正则化(L1、L2、Dropout)以及卷积神经网络(CNN)和循环神经网络(RNN)。神经网络和深度学习是现代机器学习的重要组成部分,它们在图像识别、语音识别、自然语言处理等多个领域取得了显著的成功。常见的损失函数有均方误差(MSE)、交叉熵损失等。常见的优化器有SGD、Adam、RMSprop等。

2024-09-09 16:05:35 1423

原创 *Python*如何使用自定义情感词库进行中文情感分析

情感分析(Sentiment Analysis)是指通过自然语言处理技术自动判断文本的情感倾向,如正面、负面或中性。对于中文文本,情感分析通常需要考虑多种因素,包括停用词、程度级别词语、否定词等。停用词库通常包含一些常见的词汇,如“的”、“是”等,这些词汇对情感分析没有帮助,需要去除。程度级别词语用于调整情感得分,例如“非常”会增加情感得分,“稍微”会减少情感得分。否定词用于处理否定句,例如“不”、“没”等。情感词库:包括正面情绪词和负面情绪词。程度级别词语:用于调整情感得分。否定词:用于处理否定句。

2024-09-09 09:52:06 295

原创 *Python* spaCy 库进行中文简单文本分词

手动安装可以适应更多的电脑,首先访问 spaCy Model Releases 页面,然后找到 zh_core_web_sm 的最新版本,点击下载对应的 .tar.gz 文件。②下载模型文件: 下载 zh_core_web_sm 的 whl 文件,假设下载的文件名为 en_core_web_md-3.7.1-py3-none-any.whl。spaCy 是一个非常强大的自然语言处理库,广泛应用于文本处理、实体识别、句法分析等领域。本文将介绍如何使用 spaCy 库进行文本分词,并提供详细的代码示例。

2024-09-06 14:05:33 308

原创 *Python*jieba库简单分词

jieba 库是一个用 Python 编写的用于中文文本处理的开源库,它的主要功能是将连续的中文字符序列切分成一个个单独的词语。jieba 分词支持多种分词模式,并且可以方便地加载自定义词典,以提高分词的准确率。jieba 分词库为中文文本处理提供了强大的工具,无论是学术研究还是工业应用,都能发挥重要作用。输出结果: 我 | 来到 | 北京 | 清华 | 华大 | 大学。搜索引擎模式会尽可能地给出精确的切分结果,并适当考虑未登录词。精确模式是最常用的分词模式,它会尽可能地切出有意义的词语。

2024-09-06 10:08:57 461

原创 *Python*如何实现简单文本词云图的生成

词云图是一种可视化工具,可以用来展示文本中出现频率较高的词汇。通过词云图,我们可以直观地看到哪些词汇在文本中更加突出。本文将介绍如何使用Python中的wordcloud库生成词云图,并展示一个完整的示例。假设你有一个文本文件“词云文件.txt” 或者“词云文件.csv”、“词云文件.xlsx”,其中包含了用于生成词云的文字。使用 wordcloud.WordCloud 类生成词云对象,并设置宽度、高度和背景颜色。使用 matplotlib 显示生成的词云图,并可以选择保存为图片文件。

2024-09-06 09:12:05 159

中文情感分析-情感词库

情感词库当中包括中文停用词库(chineseStopWords),利用进行分词处理。包括程度级别词语(中文)、否定词、正面情绪词和负面情绪词,停用词是指在信息检索中频繁出现但没有太多实际含义的词汇,如“的”、“是”、“在”等。去除这些词汇有助于减少噪音,提高文本处理效率。例如,在构建词袋模型或TF-IDF矩阵时,去除停用词能更准确地反映文本特征。程度级别词语指的是表示程度的副词,如“非常”、“极其”、“稍微”等。这些词语在情感分析中尤为重要,因为它们能够增强或减弱后续词语的情感强度。正确识别并处理这些词语有助于更准确地评估文本的情感倾向。否定词如“不”、“没”、“无”等,在情感分析中同样关键。一个否定词可能会改变其后词语的情感极性。例如,“不好”表达的是负面情感,而不是正面情感。因此,正确处理否定词对于情感分析准确性至关重要。 情绪词库包含了表达正面或负面情感的词汇,如“好”、“快乐”、“坏”、“悲伤”等。这些词汇直接反映了文本的情感倾向,在情感分析中用于计算文本的整体情感得分。结合程度级别词语和否定词一起使用,可以更准确地捕捉文本中的复杂情感变化。

2024-09-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除