弥十一-CSDN博客

原创 Python简单自动化脚本

Python主要依赖于第三方库的应用与实现，其中主要使用了os、requests、BeautifulSoup等库的使用。网页数据提取：使用requests和BeautifulSoup等库从网页中提取所需的数据，如文本、图片等。数据清洗：多个文件数据清洗，其中包括数据类型转换、异常值处理、缺失值处理、重复值处理等。查找和替换文本：在文件中查找特定文本并替换为所需文本，适用于文档编辑和批量修改。自动化文件排序：根据文件扩展名将文件分类到不同的子目录中，以组织文件结构。

2024-09-11 11:53:50 263

原创 Python机器学习算法——逻辑回归（Logistic Regression）

在评估方面，准确率、混淆矩阵和 AUC-ROC 曲线提供了全面的评价指标，帮助我们更好地理解模型的表现。而在实际应用中，逻辑回归被广泛用于信用评分、医疗诊断和市场营销等多个领域，展示了其强大的实用价值。本文将简单介绍逻辑回归的基本原理、模型构建、损失函数与优化方法、参数调整、模型评估以及应用场景。混淆矩阵：提供了更详细的分类结果信息，包括真阳性（TP）、假阳性（FP）、真阴性（TN）和假阴性（FN）。使用梯度下降法更新参数: 根据损失函数对参数的梯度来调整参数值，以最小化损失函数。

2024-09-10 14:26:22 908

原创 Python机器学习算法——神经网络和深度学习

通过以上代码示例，我们详细介绍了神经网络和深度学习中的几个关键知识点，包括激活函数（ReLU、Sigmoid、Tanh）、损失函数（MSE、交叉熵损失）、优化器（SGD、Adam、RMSprop）、正则化（L1、L2、Dropout）以及卷积神经网络（CNN）和循环神经网络（RNN）。神经网络和深度学习是现代机器学习的重要组成部分，它们在图像识别、语音识别、自然语言处理等多个领域取得了显著的成功。常见的损失函数有均方误差（MSE）、交叉熵损失等。常见的优化器有SGD、Adam、RMSprop等。

2024-09-09 16:05:35 1423

原创 Python如何使用自定义情感词库进行中文情感分析

情感分析（Sentiment Analysis）是指通过自然语言处理技术自动判断文本的情感倾向，如正面、负面或中性。对于中文文本，情感分析通常需要考虑多种因素，包括停用词、程度级别词语、否定词等。停用词库通常包含一些常见的词汇，如“的”、“是”等，这些词汇对情感分析没有帮助，需要去除。程度级别词语用于调整情感得分，例如“非常”会增加情感得分，“稍微”会减少情感得分。否定词用于处理否定句，例如“不”、“没”等。情感词库：包括正面情绪词和负面情绪词。程度级别词语：用于调整情感得分。否定词：用于处理否定句。

2024-09-09 09:52:06 295

原创 Python spaCy 库进行中文简单文本分词

手动安装可以适应更多的电脑，首先访问 spaCy Model Releases 页面，然后找到 zh_core_web_sm 的最新版本，点击下载对应的 .tar.gz 文件。②下载模型文件：下载 zh_core_web_sm 的 whl 文件，假设下载的文件名为 en_core_web_md-3.7.1-py3-none-any.whl。spaCy 是一个非常强大的自然语言处理库，广泛应用于文本处理、实体识别、句法分析等领域。本文将介绍如何使用 spaCy 库进行文本分词，并提供详细的代码示例。

2024-09-06 14:05:33 308

原创 Pythonjieba库简单分词

jieba 库是一个用 Python 编写的用于中文文本处理的开源库，它的主要功能是将连续的中文字符序列切分成一个个单独的词语。jieba 分词支持多种分词模式，并且可以方便地加载自定义词典，以提高分词的准确率。jieba 分词库为中文文本处理提供了强大的工具，无论是学术研究还是工业应用，都能发挥重要作用。输出结果: 我 | 来到 | 北京 | 清华 | 华大 | 大学。搜索引擎模式会尽可能地给出精确的切分结果，并适当考虑未登录词。精确模式是最常用的分词模式，它会尽可能地切出有意义的词语。

2024-09-06 10:08:57 461

原创 Python如何实现简单文本词云图的生成

词云图是一种可视化工具，可以用来展示文本中出现频率较高的词汇。通过词云图，我们可以直观地看到哪些词汇在文本中更加突出。本文将介绍如何使用Python中的wordcloud库生成词云图，并展示一个完整的示例。假设你有一个文本文件“词云文件.txt” 或者“词云文件.csv”、“词云文件.xlsx”，其中包含了用于生成词云的文字。使用 wordcloud.WordCloud 类生成词云对象，并设置宽度、高度和背景颜色。使用 matplotlib 显示生成的词云图，并可以选择保存为图片文件。

2024-09-06 09:12:05 159

中文情感分析-情感词库

情感词库当中包括中文停用词库（chineseStopWords），利用进行分词处理。包括程度级别词语（中文）、否定词、正面情绪词和负面情绪词，停用词是指在信息检索中频繁出现但没有太多实际含义的词汇，如“的”、“是”、“在”等。去除这些词汇有助于减少噪音，提高文本处理效率。例如，在构建词袋模型或TF-IDF矩阵时，去除停用词能更准确地反映文本特征。程度级别词语指的是表示程度的副词，如“非常”、“极其”、“稍微”等。这些词语在情感分析中尤为重要，因为它们能够增强或减弱后续词语的情感强度。正确识别并处理这些词语有助于更准确地评估文本的情感倾向。否定词如“不”、“没”、“无”等，在情感分析中同样关键。一个否定词可能会改变其后词语的情感极性。例如，“不好”表达的是负面情感，而不是正面情感。因此，正确处理否定词对于情感分析准确性至关重要。情绪词库包含了表达正面或负面情感的词汇，如“好”、“快乐”、“坏”、“悲伤”等。这些词汇直接反映了文本的情感倾向，在情感分析中用于计算文本的整体情感得分。结合程度级别词语和否定词一起使用，可以更准确地捕捉文本中的复杂情感变化。

2024-09-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人