
Python
文章平均质量分 95
欢迎来到“Python学习专栏”
ZShiJ
软件工程本科,大数据与机器学习方向(欢迎大家私信)
展开
-
数据挖掘实战 —— 抖音用户浏览行为数据分析与挖掘(代码部分)
本项目实现抖音用户浏览行为数据分析与挖掘。本次项通过数据挖掘技术对抖音用户的浏览行为数据进行分析和挖掘,以获得有价值的信息和洞察,并将其应用于实际场景中,如用户个性化推荐、内容优化和广告定向投放等。原创 2024-03-04 16:19:54 · 5252 阅读 · 0 评论 -
数据挖掘实战 —— 抖音用户浏览行为数据分析与挖掘(二)
本项目实现抖音用户浏览行为数据分析与挖掘。本次项通过数据挖掘技术对抖音用户的浏览行为数据进行分析和挖掘,以获得有价值的信息和洞察,并将其应用于实际场景中,如用户个性化推荐、内容优化和广告定向投放等。原创 2024-02-20 10:00:00 · 3232 阅读 · 0 评论 -
数据挖掘实战 —— 抖音用户浏览行为数据分析与挖掘(一)
本项目实现抖音用户浏览行为数据分析与挖掘。本次项通过数据挖掘技术对抖音用户的浏览行为数据进行分析和挖掘,以获得有价值的信息和洞察,并将其应用于实际场景中,如用户个性化推荐、内容优化和广告定向投放等。原创 2024-02-19 10:00:00 · 6300 阅读 · 3 评论 -
数据挖掘实战 —— 抖音用户浏览行为数据分析与挖掘(总)
本项目实现抖音用户浏览行为数据分析与挖掘。本次项通过数据挖掘技术对抖音用户的浏览行为数据进行分析和挖掘,以获得有价值的信息和洞察,并将其应用于实际场景中,如用户个性化推荐、内容优化和广告定向投放等。原创 2024-02-20 11:00:00 · 14628 阅读 · 9 评论 -
Apriori算法实现
大多数关联规则挖掘算法通常采用的一种策略是,将关联规则挖掘任务分解为如下两个主要的子任务:①频繁项集产生(Frequent Itemset Generation),其目标是发现满足最小支持度阈值的所有项集,这些项集称作频繁项集。②规则的产生(Rule Generation),其目标是从上一步发现的频繁项集中提取所有高置信度的规则,这些规则称作强规则。关联分析的目标:发现频繁项集和由频繁项集产生强关联规则,这些规则必须大于或等于最小支持度和最小置信度。原创 2024-02-07 10:30:00 · 1592 阅读 · 0 评论 -
利用贝叶斯算法对简单应用实现预测分类
假设有n个属性和m个类别,那么每个属性在每个类别中的条件概率可以表示为一个n*m的矩阵P,其中P(i,j)表示第i个属性在第j个类别中的条件概率。通常,事件A在事件B已发生的条件下发生的概率,与事件B在事件A已发生的条件下发生的概率是不一样的。它的基本思想是:对于给定的数据集,计算每个类别的先验概率,然后计算每个属性在每个类别中的条件概率,最后根据贝叶斯公式计算后验概率,选择概率最大的类别作为预测结果。整体来说,贝叶斯定理是概率论中的一个定理,描述在已知一些条件下,某事件的发生概率。即描述的是条件概率。原创 2024-02-07 09:00:00 · 1474 阅读 · 0 评论 -
定时获取微博热搜数据
scheduler提供了基于日期、固定时间间隔以及crontab类型的任务我们可以在主程序的运行过程中快速增加新作业或删除旧作业如果把作业存储在数据库中,那么作业的状态会被保存,当调度器重启时,不必重新添加作业,作业会恢复原状态继续执行触发器:调度逻辑,描述作业何时被触发,按照【日期date】,【时间间隔interval】,【固定时间点cron】触发作业。存储器:默认情况下,任务存放在内存中。也可以配置存放在不同类型的数据库中。原创 2024-01-22 10:00:00 · 1503 阅读 · 0 评论 -
TMDB电影数据分析(下)
本文对源自Kaggle TMDB电影数据集进行分析影响电影票房的因素,数据分析流程包含数据集概分析、数据清洗、数据统计以及分析影响电影票房的因素。影响票房因素可能是电影预算、电影类型、电影时长、受欢迎程度、电影评分,发行时间等有关系,通过具体数据进行分析影响票房的因素。原创 2024-01-18 09:30:00 · 3543 阅读 · 0 评论 -
TMDB电影数据分析(上)
本文对源自Kaggle TMDB电影数据集进行分析影响电影票房的因素,数据分析流程包含数据集概分析、数据清洗、数据统计以及分析影响电影票房的因素。影响票房因素可能是电影预算、电影类型、电影时长、受欢迎程度、电影评分,发行时间等有关系,通过具体数据进行分析影响票房的因素。原创 2024-01-18 09:00:00 · 3179 阅读 · 0 评论 -
可视化工具使用简介
从输出结果来看,该鸢尾花(Iris)数据集有5个字段,依次是花萼长度(Sepal.Length)、花萼宽度(Sepal.Width)、花瓣长度(Petal.Length)、花瓣宽度(Petal.Width)和类别(Species)。下面的代码调用DataFrame的hist方法绘制花萼长度(Sepal.Length)、花萼宽度(Sepal.Width)、花瓣长度(Petal.Length)、花瓣宽度(Petal.Width)的直方图。下面的代码绘制了150个样本的花瓣长度的折线图。原创 2024-01-16 09:00:00 · 982 阅读 · 0 评论 -
Numpy使用简介
Numpy是基于Python的通用数值计算工具包,其内包含大量数学计算函数和矩阵运算函数。多数科学计算工具包,比如Scipy,和数值分析工具包,比如Pandas、Scikit-learn,都依赖Numpy。利用Numpy,能够高效地对一维数组、矩阵或更高维度的多维数组进行运算,性能比使用Python列表的性能高得多。Numpy的核心数据结构是ndarray多维数组。本文介绍ndarray多维数组的基本操作。我们将使用Jupyter Notebook来编写和运行代码。原创 2024-01-12 09:00:00 · 1639 阅读 · 0 评论 -
Pandas使用简介
Series是带标签的一维ndarray。ndarray是Numpy的多维数组。所谓标签,有点类似于数据记录的主关键字,也类似于字典的键。下面的代码定义了名字为sd的变量,其类型是Series。上述各行中,第2个代码输入框内的,也即“In [2]:”开头的输入框内的,第2行代码是从字典d生成Series变量sd。第二个参数指出字典的键用作sd变量的标签。“Out[2]:”开头的5行,也即最后5行,是sd变量的输出内容。每一行有两列,第1列是标签,第2列是元素值。原创 2024-01-10 09:00:00 · 921 阅读 · 0 评论 -
Jupyter Notebook的使用
最近有人问我:ipynb的文件要怎么打开,打开后要怎么运行啊… 那么这篇博客就让我们看下如何解答上面的问题。接上文,安装Anaconda后,电脑里就会有“Jupyter Notebook”软件。下面简要介绍Windows系统内的“Jupyter Notebook”软件的使用。原创 2024-01-08 14:00:00 · 5831 阅读 · 0 评论 -
Anaconda下载安装与使用
Pandas之所以被称为工具包,原因是Pandas这个工具是由不同的代码模块组成的。每一个代码模块的功能不同,合在一起构成Pandas的丰富功能。其他工具包亦然。名称描述NumpyNumpy是通用的数值计算工具包,包含大量数学计算函数和矩阵运算函数。多数科学计算工具包和数值分析工具包依赖Numpy。PandasPandas是基于Numpy构建的、开源的Python数据分析工具包,依赖高效的数据结构提供面向大规模数据的、高性能的数据分析操作。原创 2024-01-08 08:00:00 · 2849 阅读 · 0 评论 -
数据分析概述
在当今数字化的时代,数据已经成为我们周围不可忽视的存在。从商业领域到医疗行业,从科学研究到政府治理,数据的涌现为我们提供了前所未有的信息资源。然而,要从这个庞大的信息海洋中获取有意义的见解并做出明智的决策,就需要数据分析这一强大的工具。数据分析是运用基于计算机的数据处理技术和统计分析方法,对收集到的数据进行整理分析,提取有用的信息,帮助人们作出判断和决策。Python语言和工具对数据分析提供强有力的支撑。日常生活中,人们经常运用数据分析手段。原创 2024-01-04 09:00:00 · 1400 阅读 · 0 评论 -
【Python】—— matplotlib数据可视化
本关任务:根据excel文件“类别销售”工作簿(tbsc/step2/类别销售.xlsx)的烟、零食、饮料、酒工作表的数据,找出销售数量合计最高的三种商品,建立条状图。例:以下代码可以设置日期格式为年-月-日,设置x轴的取值范围为2021-1-1到2021-5-31日,在x轴垂直显示2021-1-1。该函数主要用于生成一个固定频率的时间索引,在调用构造方法时,必须指定start、end、periods中的两个参数值,否则报错。柱形的横轴坐标分别为0,0.5,1,每个柱形的宽度为0.2,图例为商品名称。原创 2023-12-20 07:30:00 · 2267 阅读 · 0 评论 -
【Python】—— pandas数据处理
Pandas 提供了丰富的数据处理功能,涵盖了从数据导入、清理、转换到分析和可视化的方方面面。这些功能只是 Pandas 提供的众多数据处理功能的一部分。根据具体的数据和分析目标,还需要深入学习 Pandas 文档并结合其他库(如 Matplotlib、Seaborn、NumPy)进行更复杂的数据处理和分析。原创 2023-12-19 12:00:00 · 1616 阅读 · 0 评论 -
【Python】—— pandas 数据分析
pandas 是基于NumPy 的一种工具,该工具是为解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。原创 2023-12-19 11:00:00 · 1861 阅读 · 0 评论 -
【Python】—— Pandas 初体验(二)
pandas 是基于NumPy 的一种工具,该工具是为解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。原创 2023-12-19 10:00:00 · 1750 阅读 · 0 评论 -
【Python】—— Pandas 初体验(一)
pandas 是基于NumPy 的一种工具,该工具是为解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。原创 2023-12-19 09:00:00 · 1752 阅读 · 0 评论 -
【Python】—— NumPy基础及取值操作
NumPy为什么能够受到各个数据科学从业人员的青睐与追捧,其实很大程度上是因为NumPy在向量计算方面做了很多优化,接口也非常友好(总之就是用起来很爽)。而这些其实都是在围绕着NumPy的一个核心数据结构ndarray。ndarray的全称是,字面意义上其实已经表明了一个ndarray对象就是一个N维数组。但要注意的是,ndarray是同质的。同质的意思就是说 N维数组里的所有元素必须是属于同一种数据类型的。(PS:python中的list是异质的)。ndarray对象实例化好了之后,包含了一些基本的属性。原创 2023-12-19 06:30:00 · 1889 阅读 · 0 评论 -
【Python】—— Numpy 初体验
一个用python实现的科学计算,包括:1、一个强大的N维数组对象Array;2、比较成熟的(广播)函数库;3、用于整合C/C++和Fortran代码的工具包;4、实用的线性代数、傅里叶变换和随机数生成函数。numpy和稀疏矩阵运算包scipy配合使用更加方便。NumPy(Numeric Python)提供了许多高级的数值编程工具,如:矩阵数据类型、矢量处理,以及精密的运算库。专为进行严格的数字处理而产生。多为很多大型金融公司使用,以及核心的科学计算组织如:Lawrence Livermore,NASA用原创 2023-12-18 14:45:00 · 4935 阅读 · 0 评论 -
【Python】—— 如果使用matplotlib做数据可视化
这些只是 Matplotlib 的一小部分功能,该库还支持更多高级的功能,如图形的注释、图形的嵌套、3D 图形、动画等。Matplotlib 的强大之处在于它的灵活性和广泛的应用领域,从简单的图形到复杂的数据可视化,都可以通过 Matplotlib 轻松实现。根据图表的目标和观众,调整图表的属性和样式,包括颜色、线型、标签、标题等,以提高图表的可读性和美观性。选择适当的图表类型,考虑数据的结构和目标,例如使用散点图展示相关性,饼图表示比例,柱状图比较类别等。原创 2023-12-16 08:30:00 · 967 阅读 · 0 评论 -
【Python】—— 文本分析
并用某种输出模式体现出这种分布情况,例如在第一段出现,输出一个字符,在第二段没有出现,输出一个空格。当涉及到文本数据处理和可视化的任务时,我们可以通过了解下面的知识和使用Python的一些主要库和工具来完成这些任务。异常问题:在处理英文小说时,代码中使用了nltk库和wordcloud库,但是用户没有提前安装这两个库,导致代码运行时报错。对字典中的数据进行排序,按照使用频次从高到低进行排序,并把统计结果写到一个文本文件中。分析文本中人物出现的频率分布情况,可以通过统计每个人物在文本中出现的次数来实现。原创 2023-12-15 08:00:00 · 6379 阅读 · 0 评论 -
python自动化测试实战 —— CSDN的Web页面自动化测试
CSDN(China Software Developer Network)是中国最大的IT社区和知识分享平台,提供了丰富的技术文章、博客、问答等内容,吸引了大量的开发者和技术爱好者。测试的目标是针对CSDN的Web页面进行功能和性能测试。CSDN首页页面:CSDN的首页是用户访问CSDN网站的入口页面,展示了最新的技术文章、博客、问答等内容。测试目标是验证CSDN首页页面是否成功加载,包括页面元素是否正确显示、数据是否正常加载等。原创 2023-12-14 08:00:00 · 1642 阅读 · 0 评论 -
python自动化测试实战 —— 自动化测试框架的实例
PO模式(Page Object模式)是一种软件测试自动化设计模式,它将网页封装成对象,通过操作对象的方法来完成自动化测试,从而将测试代码与页面逻辑分离,提高了测试代码的可维护性和可重复使用性。 在PO模式中,每个页面或页面的一部分(如表单、菜单)都被封装到一个对象里,这个对象提供了操作页面元素的方法和属性。测试脚本只需要调用这些方法和属性,而不需要了解页面的具体实现细节。当页面元素改变时,只需要更新对象,而不需要修改测试脚本。PO模式的优点包括:提高测试代码的可维护性和可重复使用性原创 2023-12-13 08:00:00 · 1610 阅读 · 0 评论 -
python自动化测试实战 —— 单元测试框架
Unittest和Pytest是Python中常用的两个测试框架,用于编写和执行单元测试。Unittest是Python的内置测试框架之一,可以通过导入unittest模块来使用。Unittest提供了一组用于编写测试用例的类和方法,测试用例是通过继承unittest.TestCase类来创建的。测试方法以test_开头,并且可以使用断言方法(如assertEqual()、assertTrue()等)来验证预期行为。原创 2023-12-12 08:00:00 · 3482 阅读 · 0 评论 -
python自动化测试实战 —— WebDriver API的使用
Selenium 简介: WebDriver是Selenium Tool套件中最重要的组件。Selenium 2.0之后已经将Selenium和WebDriver进行合并,作为一个更简单、简洁、有利于维护的API提供给测试人员使用。 它提供了一套标准的接口,可以用多种编程语言调用,并且和浏览器进行交互。 WebDriver可以对浏览器进行控制,包括输入URL,点击按钮,填写表单,滚动页面,甚至是执行JavaScript代码。同时,它也能够获取网页中的信息,如文本,标签,属原创 2023-12-11 08:00:00 · 2481 阅读 · 0 评论 -
【如何学习Python自动化测试】—— HTMLTestRunner 生成测试报告
HTMLTestRunner是Python编程语言中的一个第三方库,它提供了一个易于使用,易于阅读和易于分享的HTML测试报告。该库适用于运行Python单元测试和集成测试,报告包括每个测试的状态,每个测试的运行时间,每个测试的失败原因等信息,并且可以将这些信息以HTML格式输出以方便查看和分享。这个库的优点是可以使测试报告易于理解,看起来更美观,帮助测试人员更准确和高效地检查测试结果。原创 2023-11-27 08:00:00 · 1904 阅读 · 0 评论 -
【如何学习Python自动化测试】—— Python 的 unittest 框架
Unittest是Python语言中的一种测试框架,是Python标准库中的一个模块。它可以帮助开发者编写自动化测试,可以进行单元测试、集成测试、功能测试等各种类型的测试。 Unittest的特点是简单易学,文档齐全,可以为每个测试用例创建独立的环境,可以根据测试结果输出详细的测试报告。 Unittest模块中提供了很多方便测试的工具,如assertEqual、assertTrue、assertFalse、assertRaises等。使用Unittest测试框架可以提高开发的质量和效率,有效减少原创 2023-11-26 08:00:00 · 1503 阅读 · 0 评论 -
【如何学习Python自动化测试】—— Cookie 处理
网络通信是当今社会最为普及和繁荣的技术之一,其承载了人们生活中瞬息万变的信息传递和交流。而作为网络通信的核心要素,网络协议、socket、cookie和session则是网络通信的灵魂。网络协议是计算机和网络设备之间相互通信的规则和标准。Socket是一种用于网络通信的编程接口。Cookie是一种存储在客户端(浏览器)中的小数据文件,用于在客户端和服务器之间传递信息。它是Web浏览器和Web服务器之间数据交换的重要机制之一。Session是一种在Web应用程序中管理用户状态的机制。原创 2023-11-25 08:00:00 · 1261 阅读 · 0 评论 -
【如何学习Python自动化测试】—— 警告框处理
在 web 中,除了上面提到的元素和操作之外,还有就是页面的提示框的处理了,页面的警告框通常分为这几类 js:alert 、 confirm 以及 prompt,这些警告框,我们都可以通过 switch_to_alert()来处理。 对警告框的处理有以下几种:接受警告框、拒绝警告框、获取警告框文本、输入信息原创 2023-11-24 08:00:00 · 1179 阅读 · 0 评论 -
【如何学习Python自动化测试】—— 多层窗口定位
从上面的案例中,我们需要先获取窗口的句柄,然后再进行切换的,句柄的规则是,按打开顺序来看,管理页面的窗口是第一个被打开的,那么他的句柄下标为 0,新窗口是第二个被打开的,那么它的句柄下标是 1。在页面操作时,有些时候会出现多个窗口的情况,比如,点击一个链接后,会打开一个新的窗口,此时想要对新窗口进行操作时,就必须先切换到新的窗口才能继续操作, 可以通过switch_to_window()方法来实现。使用鼠标:通过点击窗口的标题栏或任务栏上该窗口的缩略图,可以将焦点快速切换到需要的窗口。原创 2023-11-23 08:00:00 · 1642 阅读 · 0 评论 -
【如何学习Python自动化测试】—— 鼠标键盘操作
在浏览器中,通常会用到鼠标来进行操作,比如右键菜单中选择一个操作,在 selenium 中提供了下列鼠标相关操作。原创 2023-11-22 08:00:00 · 2568 阅读 · 0 评论 -
【如何学习Python自动化测试】—— 浏览器操作
Webdriver 打开浏览器后,默认不是最大化,如果需要界面最大化,需要通过 maximize_window()方法来实现,代码如下:maximize_window()方法是Selenium WebDriver提供的一个方法,用于将当前浏览器窗口最大化。这个方法可以用于在自动化测试过程中最大化浏览器窗口,以便测试人员或测试工具可以更方便地进行操作和观察测试结果。原创 2023-11-21 08:00:00 · 716 阅读 · 0 评论 -
【如何学习Python自动化测试】—— 时间等待
在做自动化测试时,难免会碰到一些问题,比如你在脚本中操作某个对象时, 页面还没有加载出来,你的操作语句已经被执行,从而导致脚本执行失败,针对这样的问题 webdriver 提供了等待操作,等待一定的时间,或在一个时间段内发现对象,则继续操作。Webdriver 提供了,当然,我们也可以借助 time 包的 sleep 模块,实现。原创 2023-11-20 08:00:00 · 381 阅读 · 0 评论 -
【如何学习Python自动化测试】—— 页面元素定位
接上篇自动化测试环境搭建,现在我们介绍 webdriver 对浏览器操作的 API。通过自动化操作 web 页面,首先要解决的问题就是定位到要操作的对象,比如要模拟用户在页面上的输入框中输入一段字符串,那就必须得定位到这个输入框,然后才能输入。这些对象也可以称为页面的元素,每个元素都会有很多属性,可以根据不同属性来定位元素。 Web 中常见元素有文本输入框、单选框、复选框、按钮、下拉框等,每个元素又提供了很多属性,比如 id、name、文本等。原创 2023-11-19 08:00:00 · 1309 阅读 · 2 评论 -
【如何学习python自动化测试】—— 浏览器驱动的安装 以及 如何更新driver
之前讲到基于python的自动化测试环境,需要安装Python,再安装Selenium。具体可看但是,想要使用Selenium发送指令模拟人类行为操作浏览器,就需要安装浏览器驱动。不同的浏览器需要安装各自的驱动。可直接跳转至本文【3.Chrome浏览器驱动器chromedriver的安装】。原创 2023-11-28 08:00:00 · 3009 阅读 · 0 评论 -
【如何学习Python自动化测试】—— 自动化测试环境搭建
Selenium 是 Thought Works 公司开发的一套基于 web 应用的自动化测试工具,直接运行在浏览器中,模拟用户操作。它可以被用于单元测试、集成测试、回归测试、系统测试、冒烟测试、验收测试,并且可以运行在各种浏览器和操作系统上。Selenium支持多种编程语言,包括Java,C#,Python,Ruby和JavaScript,因此可以在不同的操作系统和浏览器上运行。它也可以与许多测试框架和工具集成,例如JUnit,TestNG,Maven和Jenkins。原创 2023-11-18 08:00:00 · 1105 阅读 · 0 评论 -
【python】习题第10周题解
【python】习题第10周题解原创 2022-12-10 21:26:18 · 752 阅读 · 0 评论