python大作业写作思路

lsy永烨

已于 2023-12-27 08:14:39 修改

阅读量1k

点赞数 11

分类专栏： python实验报告文章标签： python 开发语言

于 2023-12-26 20:24:22 首次发布

本文链接：https://blog.csdn.net/m0_69194031/article/details/135230255

版权

python实验报告专栏收录该内容

10 篇文章 1 订阅

订阅专栏

本文介绍了如何使用Python进行网页爬取，包括确定目标、使用Chrome开发者工具获取HTML结构，以及如何使用requests和BeautifulSoup进行数据抓取。随后讲述了数据处理步骤，如文本转结构化、数据分析（如平均值、相关性、聚类）以及将数据导入MySQL。最后涉及数据可视化的简要说明。

摘要由CSDN通过智能技术生成

代码可以交给gpt一步一步来，但是要爬取什么得自己想。

首先爬取方面：

1.确定要爬取的对象，然后用edge，chorom等高级浏览器进行右键检查或者右上角打开开发者工具，然后一个个翻自己要爬取的哪个class里面哪个标签中哪个标签中的哪个属性。

2.注意不能使用https，要使用http，不然会出现SSL报错

3.提前安装好requests和beautifulsoup，前者用于爬取，后者用于对html这类文件进行筛选

4.一定要记得把爬取的文件按照csv文件格式保存下来，至于选择哪些名称作为列名则看具体需要，csv文件比excel文件好操作，而且csv文件不需要装太多的包（注，csv文件本质上有txt文件改后缀变化，行与行之间之间enter换行即可，列与列之间要用英文逗号隔开）

所有步骤都应该单独列一个py文件进行运行，包括这个爬取，切勿一个文件走到底。

然后是对数据进行处理：

1.拿到的数据大部分都是文本数据，你需要再用一个py程序将其转换成名称，数量这种csv文件，而不是拿第一个爬取的文件去进行数据处理，也就是需要二次处理，除非你第一次爬出来的就是数据类型的，那就无需二次操作。

2.当你完成上面两步的时候，基本就快结束了，这时候就可以乘胜追击，进行数据的求平均值，相关性分析，聚类分析，你不会没关系，gpt会，直接搜就行，注意这也是要单独一个py程序的

3.要求上面要用到mysql，这里简要列出步骤，打开软件，点击你的test，然后新建数据库，起个名字，然后在这个数据库新建查询，输入建表语句（这个数据就是上一步的csv文件的东西，还要起个表名），然后在下一步中加进去你的host名，一般是localhost，用户名root，密码（不一定看你），数据库名，表名。

4.完成数据分析.py之后就是数据可视化分析，画图也好实现，唯一可能不方便的就是不输出中文，这时候在import下加上一句plt.rcParams['font.sans-serif']=['SimHei']即可