python-应用篇

Hebe's

已于 2024-04-07 11:55:29 修改

阅读量142

点赞数

分类专栏： python 文章标签： python

于 2021-03-16 14:30:33 首次发布

本文链接：https://blog.csdn.net/csdnbt/article/details/114879028

版权

python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1 数据分析篇

1.1 重要库

numpy扩展包：numpy是一个支持数组和矩阵的科学计算库，包含数学函数、线性代数、傅里叶变化和随机数等功能；
pandas扩展包：Pandas是数据的分析和操作工具，快速便捷处理结构化数据（DataFrame和Series对象），兼具Numpy高性能的数组计算功能以及电子表格和关系型数据（如SQL）灵活的数据处理能力。它支持以时间序列的以一维数据、二维表格数据和三维数组，支持从CSV文件、excel文件中加载数据；
scikit-learn （sklearn）扩展包：sklearn是学习机器学习的神器，支持数据的分类算法、回归算法、聚类算法、纬度降低算法、交叉验证等；
scipy扩展包：scipy是基于numpy基础上的高级科学计算库，支持向量、数学常量、傅里叶变换、积分、统计函数等功能；
matplotlib扩展包：matplotlib是一个2D绘图库，通过函数就可以生成绘图、直方图、散点图等，可以直接对机器学习的算法模型进行直观感知；
statsmodels扩展包：统计分析包（回归、方差分析、时间序列、非参数方法等）。

1.2 应用示例（pyecharts）

【例】高考分析可视化：https://www.w3cschool.cn/python3/python3-ujsx2z43.html

2 机器学习篇

2.1 机器学习vs数据挖掘

机器学习：机器学习属于人工智能研究与应用的一个分支领域，机器学习的研究更加偏向理论性，其目的更偏向于是研究一种为了让计算机不断从数据中学习知识，而使机器学习得到的结果不断接近目标函数的理论。机器学习是多领域交叉，涉及概率论、统计学，算法复杂度理论等多门学科，广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、垃圾邮件过滤、推荐系统、知识图谱、医学诊断、检测信用卡欺诈、语音和手写识别、战略游戏和机器人运用等。

数据挖掘：一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。机器学习为数据挖掘提供了理论方法，而数据挖掘技术是机器学习技术的一个实际应用。“数据挖掘十大算法”包括：C4.5决策树、K-均值（K-mean）、支持向量机（SVM）、Apriori、最大期望算法（EM）、PageRank算法、AdaBoost算法、k-近邻算法（kNN）、朴素贝叶斯算法（NB）和分类回归树（CART）算法。
在这里插入图片描述

2.2 应用示例（sklearn）

【例】鸢尾花分类：https://jingyan.baidu.com/article/b7001fe1caae230e7282dd88.html

3 网络爬虫篇

3.1 概述

3.1.1 网络爬虫定义

网络爬虫（Web Spider），又被称为网页蜘蛛，是一种按照一定的规则，自动地抓取网站信息的程序或者脚本。网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。

3.1.2 网页审查元素

在讲解爬虫内容之前，我们需先学习一项写爬虫的必备技能–审查元素：在浏览器的地址栏输入URL地址 -> 在网页处右键单击 -> 找到检查。可以看到，右侧出现了一大串代码，这些代码就叫做HTML，服务器返回的HTML决定了网站的原始容貌。我们在页面的哪个位置点击审查元素，浏览器就会为我们定位到相应的HTML位置，通过修改服务器返回的HTML信息，可以修改页面信息。其中，Elements显示了网页的结构，Network显示浏览器和服务器之间的通信。确保Network下的小红灯亮着，灯亮即表示Chrome在记录server和browser之间的通信。

HTML（Hyper Text Markup Language，超文本标记语言)是一套标记标签，HTML 使用标记标签来描述网页。HTML 标记标签是由尖括号包围的关键词，比如 <html>，且HTML 标签通常是成对出现的，比如<b>和 </b>，标签对中的第一个标签是开始标签，第二个标签是结束标签。如：

<html> 与 </html> 之间的文本描述网页
<body> 与 </body> 之间的文本是可见的页面内容
<h1> 与 </h1> 之间的文本被显示为标题
<p> 与 </p> 之间的文本被显示为段落

3.1.3 网络爬虫流程

爬取：先由urllib.request或requests打开Url得到网页html文档。
分析：浏览器打开网页源代码html分析元素节点-父节点和子节点。
提取：通过Beautiful Soup或则正则表达式提取想要的数据。
存储：存储数据到本地磁盘或数据库。

3.2 应用示例（urllib.request）

【例】批量下载照片：https://www.jb51.net/article/150286.html

4 其他

4.1 办公自动化

【例1】合并工作簿：https://zhuanlan.zhihu.com/p/75741930
【例2】拆分工作表：https://blog.csdn.net/AKlianwenlan/article/details/107046227
【例3】自动发送邮件：https://blog.csdn.net/liao392781/article/details/80521194