- 博客(23)
- 收藏
- 关注
原创 用 KNN 算法解锁分类的奥秘:从电影类型到鸢尾花开
KNN 算法最大的优点是简单直观:不需要复杂的数学推导,像 “看邻居投票” 一样就能分类,而且能处理多类问题。计算量大:每预测一个样本,都要和所有已知样本算距离,数据量大时会变慢。依赖 K 值:K 太小容易 “以偏概全”,K 太大可能 “模糊重点”,需要根据数据调整。怕高维数据:特征太多时,距离计算会变得 “不准”(这就是 “维度灾难”)。但这并不影响它成为机器学习的 “入门好工具”。
2025-08-15 12:01:05
468
原创 机器学习入门:从 AlphaGo 到核心概念,带你走进智能时代
简单来说,机器学习是一门让计算机通过分析数据自动改进性能的技术。基于经验:用大量历史数据(“经验”)训练模型;明确目标:定义任务的评判标准(如预测准确率);自动优化:模型通过学习数据中的规律,不断提升任务表现。给模型输入大量标注了 “好瓜 / 坏瓜” 的样本(如色泽、根蒂、敲声等特征);模型通过分析这些数据,总结出 “好瓜” 的特征规律(如 “色泽青绿、根蒂蜷缩的瓜更可能是好瓜”);用新的西瓜数据测试模型,根据预测结果调整规律,直到模型能稳定判断瓜的好坏。
2025-08-14 13:19:58
366
原创 NumPy 进阶:从字符串处理到数据分析,解锁数组操作全技能
NumPy 的字符串函数、数学函数、统计工具和排序搜索功能,共同构成了数据处理的完整工具箱。无论是文本清洗、数值计算,还是统计分析、数据整理,NumPy 都能通过向量化操作大幅提升效率。NumPy 的数学函数覆盖了三角函数、取整、算术运算等,支持向量化操作,无需循环即可处理整个数组。统计分析是数据分析的核心,NumPy 提供了丰富的函数用于描述数据分布特征。:3 名同学的语文、数学、英语的考试成绩(60%)和平时成绩(40%)。排序和搜索是数据预处理的基础操作,NumPy 提供了灵活高效的实现。
2025-08-14 13:15:44
214
原创 NumPy 入门:从数组创建到核心操作,解锁 Python 科学计算之力
本文介绍了数组的创建方法、核心属性和切片操作,这些是后续学习数值计算、矩阵运算的前提。下一篇,我们将深入探讨 NumPy 的数学运算和广播机制,带你解锁更复杂的科学计算功能。例如,计算一个包含 1000 万个元素的列表总和,Python 列表需要 0.12 秒,而 NumPy 数组仅需 0.02 秒,效率提升显著。(N-dimensional array,N 维数组),它是一个由相同类型元素组成的多维容器。支持通过索引和切片访问元素,但多维数组的操作更灵活。的创建和属性,是掌握 NumPy 的第一步。
2025-08-14 13:06:29
322
原创 BeautifulSoup 入门:从安装到基础解析,轻松提取网页数据
将混乱的 HTML/XML 文本转换为结构化的 “解析树”,方便开发者定位和提取数据;自动处理编码问题(输入转为 Unicode,输出转为 UTF-8),无需手动编码转换;支持多种解析器(如 Python 标准库、lxml、html5lib),兼顾速度与容错性。无论是爬取新闻标题、电商价格,还是解析表格数据,BeautifulSoup 都能大幅简化操作,让你摆脱繁琐的正则表达式或手动字符串截取。
2025-08-14 12:57:13
340
原创 JavaScript 入门指南:从基础概念到核心语法
在前端开发的世界里,JavaScript 是当之无愧的 “灵魂”。它与 HTML、CSS 并称网页三要素,负责赋予页面动态交互的生命力。如果你是编程新手,想入门前端开发,这篇文章将带你快速掌握 JavaScript 的核心基础知识,从历史渊源到语法规则,一网打尽。
2025-08-14 12:51:47
238
原创 NumPy 统计分析与数据处理:从描述性统计到搜索排序
无论是分析数据分布、定位极值,还是按条件筛选、批量排序,这些工具都能帮你快速从数据中挖掘价值。描述性统计是数据分析的第一步,通过计算最大值、最小值、均值、方差等指标,能快速把握数据分布。则支持自定义权重(适用于不同数据重要性不同的场景,如考试成绩占 60%、平时成绩占 40% 的综合评分)。排序是数据处理的基础操作,NumPy 支持多种排序算法,可按轴、按字段灵活排序。返回数组的排序副本,默认按最后一个轴排序(二维数组默认按行),可通过。有时我们需要的不是排序后的数据,而是原数据的排序位置(索引)。
2025-08-14 11:47:13
235
原创 NumPy 字符串与数学运算全解析:从文本处理到数值计算
NumPy 的字符串函数让文本处理从繁琐的循环中解放出来,数学函数则为数值计算提供了高效工具。数组间的加减乘除可通过这些函数实现,支持广播机制(如长度为 3 的数组与 3x3 矩阵运算),比 Python 原生循环高效百倍。字符串处理是数据清洗的基础环节,无论是数据标注、文本分析还是格式转换,都离不开对字符串的精细化操作。NumPy 的数学函数是科学计算的核心,无论是角度转换、数值取整还是基础运算,都能通过简洁的函数实现高效计算。则按指定分隔符拆分字符串(默认按空格),是文本分词的基础工具。
2025-08-14 11:46:12
300
原创 2016 年双十一淘宝美妆数据分析:哪些品牌和品类最受欢迎
从 2016 年双十一数据来看,美妆消费的核心逻辑可总结为 "刚需主导、性价比优先、时机关键"。定价策略:中低端品牌可坚守性价比,通过 "低价 + 刚需品类"(如清洁、补水)抢占市场;高端品牌可通过 "品牌故事 + 限量套装" 吸引高净值用户。品类布局:护肤品仍是主战场,尤其是清洁、补水等高频刚需品类;可针对性拓展男士专用护肤品,填补市场空白。时间运营:重视预热期(11 月初)的流量吸引,通过预售锁定订单;双十一后推出 "返场优惠",刺激二次消费。口碑管理。
2025-08-13 10:20:00
336
原创 Matplotlib 绘图入门全攻略
可以改变线的类型,比如虚线、点划线:python运行# 虚线# 点划线plt.plot(y, ls='-.') # ls是linestyle的缩写。
2025-08-07 18:30:00
302
原创 NumPy 数组操作学习总结
NumPy 通过丰富的数组操作函数,实现了对高维数组的灵活处理,包括形状修改、维度调整、元素增删、连接分割等,而广播和迭代机制则为高效的数值计算提供了基础。掌握这些操作是进行数据科学与计算的核心前提,也是后续学习 pandas 等工具的重要基础。
2025-08-01 14:01:00
652
原创 用 BeautifulSoup 轻松搞定网页数据解析
简单说,BeautifulSoup 就是一个 Python 库,专门用来处理网页的 HTML 或 XML 代码。它能把乱糟糟的网页代码转换成清晰的 “对象树”,让我们像摘果子一样,轻松从网页里摘下需要的数据。它最贴心的地方是自动处理编码问题 —— 不管网页是啥编码,它都能转成我们能看懂的格式,再也不用为乱码头疼了。而且它支持好几种解析方式,不管是简单的网页还是复杂的结构,都能应付。今天最大的感受是:BeautifulSoup 把复杂的网页解析变得像搭积木一样简单。
2025-07-31 17:02:21
336
原创 使用 BeautifulSoup 进行数据解析
BeautifulSoup 是一个用于解析 HTML 和 XML 文档的 Python 库,它提供了简单易用的函数来处理文档导航、搜索和修改,能将复杂的文档结构转换为易于操作的对象树,让数据提取变得简单高效。自动处理编码问题,输入文档转为 Unicode 编码,输出为 utf-8 编码提供多种解析策略,可根据需求选择不同的解析器支持多种选择器,方便定位和提取元素。
2025-07-31 15:10:02
234
原创 使用 PyMySQL 进行数据存储
PyMySQL 是 Python 中用于连接 MySQL 数据库的开源库,它实现了 Python 数据库 API v2.0,包含一个纯 Python 的 MySQL 客户端库,目标是成为 MySQLdb 的替代品。在 Python 3 中,我们主要使用 PyMySQL 来与 MySQL 数据库进行交互。今天学习的 PyMySQL 库是 Python 操作 MySQL 数据库的重要工具,掌握它的使用对于数据存储至关重要。
2025-07-29 16:43:57
766
原创 MySQL 数据操纵与查询进阶
它的执行顺序是:先通过 FROM 子句确定数据源,再用 WHERE 筛选,接着 GROUP BY 分组,HAVING 筛选分组结果,然后执行 SELECT 选择字段(去重),最后 ORDER BY 排序。返回两个表的笛卡尔积,即左表每行与右表所有行组合,一般需配合 WHERE 条件筛选。子查询是嵌套在其他查询中的查询,先执行子查询,主查询使用子查询的结果。返回左表所有记录,以及右表中匹配的记录,右表无匹配则为 NULL。与左连接相反,返回右表所有记录,左表无匹配则为 NULL。
2025-07-25 16:52:20
806
原创 MySQL 数据库基础入门
数据库(DataBase):按照数据结构组织、存储和管理数据的仓库,本质上是一个文件系统,以文件形式存在于服务器的电脑中。数据库管理系统(DBMS):操纵和管理数据库的大型软件,用于建立、使用和维护数据库,保证数据库的安全性和完整性。用户通过 DBMS 访问数据库中的数据。MySQL 是一种关系型数据库管理系统,由瑞典 MySQL AB 公司开发,目前属于 Oracle 旗下产品。它在 Web 应用方面表现出色,是最流行的关系型数据库管理系统之一。
2025-07-24 17:47:58
893
原创 XPath 与静态网页爬取实战
XPath 全称 XML Path Language,是一门在 XML 文档中查找信息的语言,可用来在 XML/HTML 中对元素和属性进行遍历。它使用路径表达式在 XML 文档中进行导航,包含标准函数库,是 XSLT 中的主要元素,也是 W3C 标准。在 Python 中,我们可以使用 lxml 库来解析 XPath,它执行效率高且简单易学。安装 lxml 库的命令是:plaintext今天学习的内容非常实用,Requests 库的高级用法让爬取过程更顺畅,而 XPath 则让数据解析变得精准高效。
2025-07-23 17:57:27
891
原创 HTML 与 CSS 学习报告
通过本次学习,我掌握了 HTML 的核心标记及基本网页结构设计,理解了表单与用户交互的原理,并初步学会用 CSS 美化页面。在实践中,我发现 HTML 的语义化标签对页面结构清晰度至关重要,而 CSS 能显著提升用户体验。后续将进一步学习 CSS 布局和 JavaScript 交互,以制作更复杂的网页。
2025-07-21 18:42:00
664
原创 今日学习分享:HTML 开发基础入门
今天学习的 HTML 基础知识很丰富,从基本结构到各种标记的使用,虽然有点多,但通过实际编写代码和查看效果,理解起来并不难。HTML 是网页开发的基础,打好这个基础对后续学习 CSS、JavaScript 非常重要。
2025-07-18 16:05:10
699
原创 今日学习笔记:用 Requests 库实现模拟登录
今天主要学习了 Cookie 与 session 的运行机制,以及如何利用 Requests 库(cookie 和 post)模拟登录。后续作业是登录桔子网,爬取登录成功的个人主页,我会好好练习巩固今天学到的知识。
2025-07-18 16:01:07
735
原创 网络爬虫用于QQ表情包的爬取和手机号码归属地的查询
在未来,我还想继续探索更多爬虫的应用场景,不断提升自己在数据获取和处理方面的能力,也期待能和更多志同道合的小伙伴在这个领域交流学习,共同进步。通过这些操作,就能从网页上获取到我们想要查询的手机号码归属地相关信息啦。函数负责获取单个图片的二进制数据,它会向指定的图片 URL 发送请求,设置 10 秒的超时时间,要是请求顺利且状态码是 200(代表一切正常),就把图片的二进制内容带回来,否则就打印出错误信息。函数去获取图片数据,然后从 URL 里提取出原始文件名,和我们设定好的保存目录组合成完整路径,最后用。
2025-07-17 16:38:35
1031
原创 爬虫应用开发
①网络爬虫( Crawler,又被称为网页蜘蛛--Spider、网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。②网络爬虫经典的应用案例,如Google、百度、Bing(必应)。
2025-07-16 18:00:43
1336
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人