- 博客(32)
- 收藏
- 关注
原创 PyEcharts超详细总结
Echarts 是一个由百度开源的数据可视化,凭借着良好的交互性,精巧的图表设计,得到了众 多开发者的认可。而 Python 是一门富有表达力的语言,很适合用于数据处理。当数据分析遇上数据可视化时,pyecharts 诞生了。
2025-12-19 11:02:32
687
原创 Hadoop 分布式计算MapReduce和资源管理Yarn 2
序列化定义:就是把内存中的对象,转换为字节序列,以便于存储到磁盘或网络传输,此过程被称为序列化。反序列化定义:将字节序列或磁盘中的持久化字节数据,转换为内存中的对象的过程。##4.2 hadoop为什么需要序列化和反序列化数据经过mapper 任务的处理后,会产生溢出文件,这些文件会被保存到磁盘上。mapper任务完成后,reducer会通过http get的方式从mapper端拷贝对应分区的数据,中间需要经过网络传输。需要做持久化(存盘)或网络传输,这中间就需要做数据的序列化和反序列操作。
2025-11-25 19:39:25
989
原创 Hadoop 分布式计算MapReduce和资源管理Yarn
Google发表了两篇论文《Google File System》 《Google MapReduce》《Google File System》简称GFS,是Google公司用于解决海量数据存储的文件系统。《Google MapReduce》简称MapReduce,是Google的计算框架,基于GFS。MapReduce是一个分布式运算程序的框架重要组成部分,是用户开发“基于Hadoop HDFS的数据分析应用”的核心框架。
2025-11-05 22:56:19
871
5
原创 爬虫反反爬1
Splash是一个JavaScript渲染服务,是一个带有HTTP API的轻量级浏览器,同时它对接了Python中的Twisted和QT库。利用它,我们同样可以实现动态渲染页面的抓取。文档地址:文档。
2025-10-04 21:01:11
2336
原创 python爬虫scrapy框架使用
目录Scrapy的介绍Scrapy的优势Scrapy的架构安装Scarpy开发第一个爬虫创建第一个项目文件说明创建第一个爬虫爬虫包含的内容Scrapy项目的启动介绍Scrapy启动-命令启动scrapy命令方法1方法2Scrapy输出日志-了解Scrapy 数据的提取获得选择器Response对象获取创建对象选择器的方法Scrapy Shell的使用Scrapy 保存数据到文件Item Pipeline的使用特点功能案例代码Scrapy 使用ImagePipeline 保存图片使用图片管道。
2025-10-04 20:38:43
1794
原创 python爬虫进阶版练习(只说重点,selenium)
Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器。Selenium 可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。Selenium 自己不带浏览器,不支持浏览器的功能,它需要与第三方浏览器结合在一起才能使用。
2025-09-28 23:13:02
1148
原创 Python爬虫基础与应用
网络爬虫也叫网络蜘蛛,如果把互联网比喻成一个蜘蛛网,那么蜘蛛就是在网上爬来爬去 的蜘蛛,爬虫程序通过请求url地址,根据响应的内容进行解析采集数据简单的说:就是用代码模拟人的行为,去各各网站溜达、点点按钮、查查数据。或者把看到的数据拿下来。Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。
2025-09-21 22:47:06
4173
原创 数据分析需要掌握的数学知识(易理解)
跟开发APP和后台服务器相比,机器学习、深度学习需要大量的数学知识上图是使用逻辑回归判断一个男生是否是一位合适的女婿的例子这里会涉及sigmoid函数、求导算法、梯度下降、正则项控制过拟合等数学知识。遇到问题解决问题,死磕关键点,才不会钻入牛角尖,陷入数学知识的汪洋大海中孤立无援。注意关于数学知识的学习,不建议大家啃教材,会浪费大家大量的精力和时间。只需掌握必要的关键性知识即可。在某一点的导数定义若极限。
2025-09-14 13:17:44
1137
原创 seaborn超详细总结
Seaborn 是以 matplotlib为底层,更容易定制化作图的Python库。官网Seaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易。在大多数情况下使用Seaborn就能做出很具有吸引力的图,而使用matplotlib就能制作具有更多特色的图,换句话说,matplotlib更加灵活,可定制化,而seaborn像是更高级的封装,使用方便快捷。应该把Seaborn视为matplotlib的补充,而不是替代物。
2025-09-14 12:04:00
1251
原创 matplotlib超详细总结,可调用代码灵活运用
Matplotlib 是一个用于绘制图表和可视化数据的 Python 库。它提供了一种类似于 MATLAB 的绘图接口,使用户能够轻松地生成各种类型的图形,包括折线图、散点图、直方图、饼图等。Matplotlib 被广泛应用于数据分析、科学计算、工程和其他领域。
2025-09-07 16:06:23
1880
原创 JupyterNotebook环境搭建
Jupyter Notebook是基于网页的用于交互计算的应用程序。其可被应用于全过程计算:开发、文档编写、运行代码和展示结果简而言之,Jupyter Notebook是以网页的形式打开,可以在网页页面中直接编写代码和运行代码,代码的运行结果也会直接在代码块下显示如在编程过程中需要编写说明文档,可在同一个页面中直接编写,便于作及时的说明和解释。
2025-09-07 15:40:26
1003
原创 非参数方法
SciPy中符号秩和检验的原理是:遍历样本数据,然后分别记录大于中位数的个数和小于中位数的个数。Wilcoxon 秩和检验主要针对两样本量相同的情况,而 Mann-Whitney 秩和检验考虑到了不等样本的情况,算是对 Wilcoxon 秩和检验这一方法的补充。总体的分布未知,但已经有一个容量为n的来自总体的样本,从这一样本按放回抽样的方法抽取一个容量为n的样本,这种样本称为bootstrap样本或自助样本。在秩和检验中,求秩的时候是忽略两个总体的影响,根据所有个体求秩。
2025-09-03 21:18:39
1094
原创 协方差与相关系数
对一组观测值(n=10)进行计算,得到两个变量X(Score)与Y(Happy)的相关系数r=0.86,能否说明X与Y有较强的线性关系?相关系数描述了两个数值变量线性关系的强度和方向。r=0代表没有线性关系(但不代表没有关系)r的绝对值大小代表线性关系的强弱。取值范围 -1 ≤ r ≤ 1。r的符号代表线性关系的方向。
2025-09-03 21:10:27
376
原创 方差分析(通俗易理解)
方差分析(Analysis of Variance,ANOVA)是假设检验的一种延续与扩展,主要用来对多个总体均值(三组或三组以上均值)是否相等作出假设检验,研究分类型自变量对数值型因变量的影响。
2025-09-02 18:28:37
1005
原创 假设检验(超级详细易懂)
引例:某饮料厂在自动流水线上罐装饮料。在正常生产情形下,每瓶饮料的容量(单位:ml)X服从正态分布N(500,10^2^)。经过一段时间之后,为了检查机器工作是否正常,抽取了9瓶样品,测得它们的平均值为490ml.试问此时自动流水线的工作是否正常?即问是否可以认为每瓶饮料的容量仍是500ml?假定标准差10ml不变。
2025-09-02 14:19:32
1104
原创 参数估计部分
有两个无偏估计θ~1~和θ~2~,如果在样本容量n相同的情况下,θ~1~比θ~2~更密集在真值附近,就认为θ~1~比θ~2~更理想。设总体X的分布形式已知,但它的一个或多个参数未知,借助于总体X的一个样本来估计总体未知参数的值的问题称为参数的点估计问题。点估计的问题就是要构造一个适当的统计量(估计量),用它的观察值作为未知参数的近似值(估计值)样本方差是总体方差的无偏估计。是总体方差的无偏估计S2=1n−1∑i=1n(Xi−X¯)2是总体方差的无偏估计。,X~n~)是取自总体X的一个样本,对于未知参数。
2025-09-01 18:15:20
886
原创 项目-音乐播放器-数据库与应用的结合使用
无论 网页程序、小程序、微信公共号、手机APP,基本都逻辑都会是上图的样子。拼写错误, 一般意思就是我们函数名写的不对,修改正确即。用户所看到的页面 + 业务逻辑的功能 + 数据库。模拟网易云音乐,实现本地音乐盒。
2025-07-13 08:24:04
473
原创 python操作mysql
pymysql操作mysql,虽然简单,但每次都要链接数据库,获取游标,关闭游标,关闭链接。connect函数:连接数据库,根据连接的数据库类型不同,该函数的参数也不同。cursor方法:获取操作数据库的Cursor对象,包含了很多操作数据的方法。rollback方法:如果修改数据库失败,一般需要调用该方法进行数据库回滚,也就是将数据库恢复成修改之前的样子。函数作用:批量执行sql语句,比如批量插入数据,执行成功后返回受影响的行数。commit方法:在修改数据库后,需要调用该方法提交对数据库的修改。
2025-07-13 07:54:32
920
原创 数据库编程10
事务是指作为单个逻辑工作单元执行的一系列操作,要么完全地执行,要么完全地不执行。事务是一个最小的不可再分的工作单元;通常一个事务对应一个完整的业务(例如银行账户转账业务,该业务就是一个最小的工作单元)一个完整的业务需要批量的DML(insert、update、delete)语句共同联合完成事务只和DML语句有关,或者说DML语句才有事务。这个和业务逻辑有关,业务逻辑不同,DML语句的个数不同事务四大特征(ACID)
2025-07-13 07:30:33
824
原创 数据库编程9
用子查询解决问题假如要写一个查询来找出挣钱比 Abel 的薪水还多的人。为了解决这个问题,需要两个查询:一个找出 Abel 的收入,第二个查询找出收入高于 Abel 的人。可以用组合两个查询的方法解决这个问题。内查询或子查询返回一个值给外查询或主查询。使用一个子查询相当于执行两个连续查询并且用第一个查询的结果作为第二个查询的搜索值。子查询语法子查询子查询是一个 SELECT 语句,它是嵌在另一个 SELECT 语句中的子句。使用子查询可以用简单的语句构建功能强大的语句。WHERE 子句。
2025-07-12 19:14:11
711
1
原创 数据库编程8
聚合函数聚合函数也称之为多行函数,组函数或分组函数。聚合函数不象单行函数,聚合函数对行的分组进行操作,对每组给出一个结果。如果在查询中没有指定分组,那么聚合函数则将查询到的结果集视为一组。聚合函数类型。
2025-07-12 11:12:15
985
1
原创 数据库编程7
笛卡尔乘积笛卡尔乘积 :当一个连接条件无效或被遗漏时,其结果是一个笛卡尔乘积 (),其中所有行的组合都被显示。第一个表中的所有行连接到第二个表中的所有行。一个笛卡尔乘积会产生大量的行,其结果没有什么用。你应该在 WHERE 子句中始终包含一个有效的连接条件,除非你有特殊的需求,需要从所有表中组合所有的行。
2025-07-10 23:24:41
1463
1
原创 数据库编程6
如果一行中的某个列缺少数据值,该值被置为null, 或者说包含一个空。空是一个难以获得的、未分配的、未知的,或不适用的值。空和 0 或者空格不相同。0 是一个数字,而空格是一个字符。
2025-07-10 17:16:54
958
2
原创 数据库编程4
主键约束是使用最频繁的约束。主键是表的一个特殊字段,该字段能唯一标识该表中的每条信息。唯一约束与主键约束有一个相似的地方,就是它们都能够确保列的唯一性。与主键约束不同的是,唯一约束在一个表中可以有多个,并且设置唯一约束的列是允许有空值的。删除主键时,如果主键列具备自动增长能力,需要先去掉自动增长,然后在删除 主键。数据库约束是对表中的数据进行进一步的限制,保证数据的正确性、有效性和完整性。使用多个列作为主键列,当多个列的值都相同时,则违反唯一约束。使用一个列作为主键列,当该列的值有重复时,则违反唯一约束。
2025-07-09 23:36:19
613
1
原创 数据库编程3
数值类型中的长度 m 是指显示长度,并不表示存储长度,只有字段指定 zerofill 时有用例如: int(3) ,如果实际值是 2 ,如果列指定了 zerofill ,查询结果就是 002 ,左边用 0 来 填充。
2025-07-05 23:13:56
1126
2
原创 数据库编程2
结构化查询语言(Structured Query Language)简称 SQL(发音:sequal['si:kwəl]),是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统。1.SQL 能做什么?SQL 面向数据库执行查询SQL 可在数据库中插入新的记录SQL 可更新数据库中的数据SQL 可从数据库删除记录SQL 可创建新数据库SQL 可在数据库中创建新表SQL 可在数据库中创建存储过程SQL 可在数据库中创建视图。
2025-07-05 20:56:49
954
3
原创 数据库编程1
MySQL 是一个关系型数据库管理系统, 由瑞典 MySQL AB 公司开发, 目前属于 Oracle 公司。MySQL 是一种关系型数据库管理系统,关系型数据库将数据保存在不同的表 中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。
2025-07-02 21:18:15
857
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅