tainshuai-CSDN博客

原创用 KNN 算法解锁分类的奥秘：从电影类型到鸢尾花开

KNN 算法最大的优点是简单直观：不需要复杂的数学推导，像 “看邻居投票” 一样就能分类，而且能处理多类问题。计算量大：每预测一个样本，都要和所有已知样本算距离，数据量大时会变慢。依赖 K 值：K 太小容易 “以偏概全”，K 太大可能 “模糊重点”，需要根据数据调整。怕高维数据：特征太多时，距离计算会变得 “不准”（这就是 “维度灾难”）。但这并不影响它成为机器学习的 “入门好工具”。

2025-08-15 12:01:05 468

原创机器学习入门：从 AlphaGo 到核心概念，带你走进智能时代

简单来说，机器学习是一门让计算机通过分析数据自动改进性能的技术。基于经验：用大量历史数据（“经验”）训练模型；明确目标：定义任务的评判标准（如预测准确率）；自动优化：模型通过学习数据中的规律，不断提升任务表现。给模型输入大量标注了 “好瓜 / 坏瓜” 的样本（如色泽、根蒂、敲声等特征）；模型通过分析这些数据，总结出 “好瓜” 的特征规律（如 “色泽青绿、根蒂蜷缩的瓜更可能是好瓜”）；用新的西瓜数据测试模型，根据预测结果调整规律，直到模型能稳定判断瓜的好坏。

2025-08-14 13:19:58 366

原创 NumPy 进阶：从字符串处理到数据分析，解锁数组操作全技能

NumPy 的字符串函数、数学函数、统计工具和排序搜索功能，共同构成了数据处理的完整工具箱。无论是文本清洗、数值计算，还是统计分析、数据整理，NumPy 都能通过向量化操作大幅提升效率。NumPy 的数学函数覆盖了三角函数、取整、算术运算等，支持向量化操作，无需循环即可处理整个数组。统计分析是数据分析的核心，NumPy 提供了丰富的函数用于描述数据分布特征。：3 名同学的语文、数学、英语的考试成绩（60%）和平时成绩（40%）。排序和搜索是数据预处理的基础操作，NumPy 提供了灵活高效的实现。

2025-08-14 13:15:44 214

原创 NumPy 入门：从数组创建到核心操作，解锁 Python 科学计算之力

本文介绍了数组的创建方法、核心属性和切片操作，这些是后续学习数值计算、矩阵运算的前提。下一篇，我们将深入探讨 NumPy 的数学运算和广播机制，带你解锁更复杂的科学计算功能。例如，计算一个包含 1000 万个元素的列表总和，Python 列表需要 0.12 秒，而 NumPy 数组仅需 0.02 秒，效率提升显著。（N-dimensional array，N 维数组），它是一个由相同类型元素组成的多维容器。支持通过索引和切片访问元素，但多维数组的操作更灵活。的创建和属性，是掌握 NumPy 的第一步。

2025-08-14 13:06:29 322

原创 BeautifulSoup 入门：从安装到基础解析，轻松提取网页数据

将混乱的 HTML/XML 文本转换为结构化的 “解析树”，方便开发者定位和提取数据；自动处理编码问题（输入转为 Unicode，输出转为 UTF-8），无需手动编码转换；支持多种解析器（如 Python 标准库、lxml、html5lib），兼顾速度与容错性。无论是爬取新闻标题、电商价格，还是解析表格数据，BeautifulSoup 都能大幅简化操作，让你摆脱繁琐的正则表达式或手动字符串截取。

2025-08-14 12:57:13 340

原创爬虫数据存储全攻略：从 Robots 协议到文件存储

它是一个名为。

2025-08-14 12:52:44 805

原创 JavaScript 入门指南：从基础概念到核心语法

在前端开发的世界里，JavaScript 是当之无愧的 “灵魂”。它与 HTML、CSS 并称网页三要素，负责赋予页面动态交互的生命力。如果你是编程新手，想入门前端开发，这篇文章将带你快速掌握 JavaScript 的核心基础知识，从历史渊源到语法规则，一网打尽。

2025-08-14 12:51:47 238

原创 NumPy 统计分析与数据处理：从描述性统计到搜索排序

无论是分析数据分布、定位极值，还是按条件筛选、批量排序，这些工具都能帮你快速从数据中挖掘价值。描述性统计是数据分析的第一步，通过计算最大值、最小值、均值、方差等指标，能快速把握数据分布。则支持自定义权重（适用于不同数据重要性不同的场景，如考试成绩占 60%、平时成绩占 40% 的综合评分）。排序是数据处理的基础操作，NumPy 支持多种排序算法，可按轴、按字段灵活排序。返回数组的排序副本，默认按最后一个轴排序（二维数组默认按行），可通过。有时我们需要的不是排序后的数据，而是原数据的排序位置（索引）。

2025-08-14 11:47:13 235

原创 NumPy 字符串与数学运算全解析：从文本处理到数值计算

NumPy 的字符串函数让文本处理从繁琐的循环中解放出来，数学函数则为数值计算提供了高效工具。数组间的加减乘除可通过这些函数实现，支持广播机制（如长度为 3 的数组与 3x3 矩阵运算），比 Python 原生循环高效百倍。字符串处理是数据清洗的基础环节，无论是数据标注、文本分析还是格式转换，都离不开对字符串的精细化操作。NumPy 的数学函数是科学计算的核心，无论是角度转换、数值取整还是基础运算，都能通过简洁的函数实现高效计算。则按指定分隔符拆分字符串（默认按空格），是文本分词的基础工具。

2025-08-14 11:46:12 300

原创 2016 年双十一淘宝美妆数据分析：哪些品牌和品类最受欢迎

从 2016 年双十一数据来看，美妆消费的核心逻辑可总结为 "刚需主导、性价比优先、时机关键"。定价策略：中低端品牌可坚守性价比，通过 "低价 + 刚需品类"（如清洁、补水）抢占市场；高端品牌可通过 "品牌故事 + 限量套装" 吸引高净值用户。品类布局：护肤品仍是主战场，尤其是清洁、补水等高频刚需品类；可针对性拓展男士专用护肤品，填补市场空白。时间运营：重视预热期（11 月初）的流量吸引，通过预售锁定订单；双十一后推出 "返场优惠"，刺激二次消费。口碑管理。

2025-08-13 10:20:00 336

原创 Matplotlib 绘图入门全攻略

可以改变线的类型，比如虚线、点划线：python运行# 虚线# 点划线plt.plot(y, ls='-.') # ls是linestyle的缩写。

2025-08-07 18:30:00 302

原创 NumPy 数组操作学习总结

NumPy 通过丰富的数组操作函数，实现了对高维数组的灵活处理，包括形状修改、维度调整、元素增删、连接分割等，而广播和迭代机制则为高效的数值计算提供了基础。掌握这些操作是进行数据科学与计算的核心前提，也是后续学习 pandas 等工具的重要基础。

2025-08-01 14:01:00 652

原创用 BeautifulSoup 轻松搞定网页数据解析

简单说，BeautifulSoup 就是一个 Python 库，专门用来处理网页的 HTML 或 XML 代码。它能把乱糟糟的网页代码转换成清晰的 “对象树”，让我们像摘果子一样，轻松从网页里摘下需要的数据。它最贴心的地方是自动处理编码问题 —— 不管网页是啥编码，它都能转成我们能看懂的格式，再也不用为乱码头疼了。而且它支持好几种解析方式，不管是简单的网页还是复杂的结构，都能应付。今天最大的感受是：BeautifulSoup 把复杂的网页解析变得像搭积木一样简单。

2025-07-31 17:02:21 336

原创使用 BeautifulSoup 进行数据解析

BeautifulSoup 是一个用于解析 HTML 和 XML 文档的 Python 库，它提供了简单易用的函数来处理文档导航、搜索和修改，能将复杂的文档结构转换为易于操作的对象树，让数据提取变得简单高效。自动处理编码问题，输入文档转为 Unicode 编码，输出为 utf-8 编码提供多种解析策略，可根据需求选择不同的解析器支持多种选择器，方便定位和提取元素。

2025-07-31 15:10:02 234

原创使用 PyMySQL 进行数据存储

PyMySQL 是 Python 中用于连接 MySQL 数据库的开源库，它实现了 Python 数据库 API v2.0，包含一个纯 Python 的 MySQL 客户端库，目标是成为 MySQLdb 的替代品。在 Python 3 中，我们主要使用 PyMySQL 来与 MySQL 数据库进行交互。今天学习的 PyMySQL 库是 Python 操作 MySQL 数据库的重要工具，掌握它的使用对于数据存储至关重要。

2025-07-29 16:43:57 766

原创 MySQL 数据操纵与查询进阶

它的执行顺序是：先通过 FROM 子句确定数据源，再用 WHERE 筛选，接着 GROUP BY 分组，HAVING 筛选分组结果，然后执行 SELECT 选择字段（去重），最后 ORDER BY 排序。返回两个表的笛卡尔积，即左表每行与右表所有行组合，一般需配合 WHERE 条件筛选。子查询是嵌套在其他查询中的查询，先执行子查询，主查询使用子查询的结果。返回左表所有记录，以及右表中匹配的记录，右表无匹配则为 NULL。与左连接相反，返回右表所有记录，左表无匹配则为 NULL。

2025-07-25 16:52:20 806

原创 MySQL 数据库基础入门

数据库（DataBase）：按照数据结构组织、存储和管理数据的仓库，本质上是一个文件系统，以文件形式存在于服务器的电脑中。数据库管理系统（DBMS）：操纵和管理数据库的大型软件，用于建立、使用和维护数据库，保证数据库的安全性和完整性。用户通过 DBMS 访问数据库中的数据。MySQL 是一种关系型数据库管理系统，由瑞典 MySQL AB 公司开发，目前属于 Oracle 旗下产品。它在 Web 应用方面表现出色，是最流行的关系型数据库管理系统之一。

2025-07-24 17:47:58 893

原创 XPath 与静态网页爬取实战

XPath 全称 XML Path Language，是一门在 XML 文档中查找信息的语言，可用来在 XML/HTML 中对元素和属性进行遍历。它使用路径表达式在 XML 文档中进行导航，包含标准函数库，是 XSLT 中的主要元素，也是 W3C 标准。在 Python 中，我们可以使用 lxml 库来解析 XPath，它执行效率高且简单易学。安装 lxml 库的命令是：plaintext今天学习的内容非常实用，Requests 库的高级用法让爬取过程更顺畅，而 XPath 则让数据解析变得精准高效。

2025-07-23 17:57:27 891

原创 HTML 与 CSS 学习报告

通过本次学习，我掌握了 HTML 的核心标记及基本网页结构设计，理解了表单与用户交互的原理，并初步学会用 CSS 美化页面。在实践中，我发现 HTML 的语义化标签对页面结构清晰度至关重要，而 CSS 能显著提升用户体验。后续将进一步学习 CSS 布局和 JavaScript 交互，以制作更复杂的网页。

2025-07-21 18:42:00 664

原创今日学习分享：HTML 开发基础入门

今天学习的 HTML 基础知识很丰富，从基本结构到各种标记的使用，虽然有点多，但通过实际编写代码和查看效果，理解起来并不难。HTML 是网页开发的基础，打好这个基础对后续学习 CSS、JavaScript 非常重要。

2025-07-18 16:05:10 699

原创今日学习笔记：用 Requests 库实现模拟登录

今天主要学习了 Cookie 与 session 的运行机制，以及如何利用 Requests 库（cookie 和 post）模拟登录。后续作业是登录桔子网，爬取登录成功的个人主页，我会好好练习巩固今天学到的知识。

2025-07-18 16:01:07 735

原创网络爬虫用于QQ表情包的爬取和手机号码归属地的查询

在未来，我还想继续探索更多爬虫的应用场景，不断提升自己在数据获取和处理方面的能力，也期待能和更多志同道合的小伙伴在这个领域交流学习，共同进步。通过这些操作，就能从网页上获取到我们想要查询的手机号码归属地相关信息啦。函数负责获取单个图片的二进制数据，它会向指定的图片 URL 发送请求，设置 10 秒的超时时间，要是请求顺利且状态码是 200（代表一切正常），就把图片的二进制内容带回来，否则就打印出错误信息。函数去获取图片数据，然后从 URL 里提取出原始文件名，和我们设定好的保存目录组合成完整路径，最后用。

2025-07-17 16:38:35 1031