自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 聊聊爬虫和IP代理

动态代理IP,指访问目标网站服务器的代理IP是不断变化的。这种设置的优势明显。TIPS:平时我们需要用到爬虫时,如果IP被限制速度什么的,可以自定义一个时间自动切换ip,这样就可以提高爬虫下效率啦~当然,一般爬虫只是。这种方式,当代理连接发生错误时,会直接抛出异常,而并不是使用本地的连接继续访问。这是最简单的使用代理Ip的方式,直接在浏览器上设置代理服务器,然后访问网站。按协议类型分类,代理IP分为http(s)代理IP和socks5代理IP。按时效划分的话,可将代理IP分为静态代理IP和动态代理IP。

2022-09-27 15:15:32 959 1

原创 python数据类型

查找该字符串,返回对应索引(下标),如果没有则返回-1。列表与元组最大的区别就是列表可变,而元组不可变。将 字符串A 替换为 字符串B 替换次数为C次。与find基本一样,唯一不同的是,超找不到报错。有参数: 以"参数"来切割,可以设置切几刀。step 步长(步长可以是负数)语法:序列[start:end]有参数:删除字符串两边”参数“查找该字串在字符串中出现的次数。从头到尾,依次访问到每一个。无参数:删除字符串两边空白。唯一性,所有的键都是唯一的。无参数: 默认以空格切割。元组不可更改,所以只能查。

2022-09-23 14:57:50 307

原创 10道Python常见面试题

最左前缀原理的一部分,索引index1:(a,b,c),只会走a、a,b、a,b,c 三种类型的查询,其实这里说的有一点问题,a,c也走,但是只走a字段索引,不会走c字段。索引是有序的,index1索引在索引文件中的排列是有序的,首先根据a来排序,然后才是根据b来排序,最后是根据c来排序,垂直切分:把不同功能,不同模块的数据分别放到不同的表中,但是如果同一个模块的数据量太大就会存在性能瓶颈。水平切分:垂直切分解决不了大表的瓶颈,如果同一个功能中表的数据量过大,就要对该表进行切分,为水平切分。

2022-09-22 19:26:16 153

原创 用python去除SQL中的注释

其实是最近在做一个项目,需要在行云库里执行SQL,并且SQL是写在脚本上的,通过JDBC调用,众所周知,SQL的注释很随意,甚至有什么保佑不出bug这种,那么执行的时候就很有可能因为注释里的特殊字符导致一堆莫名其妙的bug出现,并且行云数据库是一个国产的不太完善的数据库,所以本身对特殊字符的支持也不是很好,所以去除注释势在必行。好了,废话说的够多了,现在上代码,因为行注释和段落注释使用的注释方法不同,所以这里分成两个功能来写。行注释看起来还是比较简单的,其实我也没想到会这么简单,哈哈哈哈哈。

2022-09-22 15:04:21 382

原创 【算法实践】他山之石, 可以攻玉 -- 利用完全二叉树快速实现堆排序

堆是一种数据结构,它是完全二叉树或者是近似完全二叉树的一种数据结构,树中每个结点的值都不小于(或不大于)其左右孩子结点的值。堆排序与快速排序,归并排序一样都是时间复杂度为 O(N*logN)的几种常见排序方法,堆排序是将数据看成完全二叉树,然后根据完全二叉树的特性来进行排序的一种排序算法,这有点草船借箭的妙用。正所谓他山之,石可以攻玉。在堆排序中,堆具体可分为最大堆和最小堆,也有人称他们为大顶堆和小顶堆。

2022-09-20 21:35:31 190

原创 Python gRPC 入门

先来看一个非常简单的例子。假设你想定义一个“搜索请求”的消息格式,每一个请求含有一个查询字符串、你感兴趣的查询结果所在的页数,以及每一页多少条查询结果。// 声明使用 proto3 语法// 每个字段都要指定数据类型// 这里的数字2 是标识符,最小的标识号可以从1开始,最大到2^29 - 1, or 536,870,911。不可以使用其中的[19000-19999]// 这里是注释,使用 //}文章的第一行指定了你正在使用 proto3 语法:如果不指定,编译器会使用 proto2。

2022-09-19 20:54:31 330

原创 用它5分钟以后,我放弃用了四年的 Flask

有一个非常简单的需求:编写一个 HTTP接口,使用 POST 方式发送一个 JSON 字符串,接口里面读取发送上来的参数,对其中某个参数进行处理,并返回。在使用 Flask 的时候,我们需要手动验证用户 POST 提交上来的数据是什么格式的,字段对不对。看来,用 Flask,虽然能让你用很短的代码写出一个能工作的项目。最后,告诉大家,FastApi 是一个异步 Web 框架,它的速度非常非常非常快。我用了 Flask 四年,但在使用了5分钟 FastApi 以后,我决定以后不再使用 Flask 了。

2022-09-16 20:16:08 226

原创 Python常见web框架汇总

目前,有非常多的Python框架,用来帮助你更轻松的创建web应用。这些框架把相应的模块组织起来,使得构建应用的时候可以更快捷,也不用去关注一些细节(例如socket和协议),所以需要的都在框架里了。接下来我们会介绍不同的选项。Python发源于八十年代后期。开发者是Centrum Wiskunde & Informatica的Guido van Rossum,这是位于荷兰阿姆斯特丹科学园区的一个数学和计算机科学研究中心。之后Van Rossum一直是Python开发很有影响的人物。

2022-09-16 15:53:16 3175

原创 Python垃圾回收(GC)三层心法,你了解到第几层?

引用计数的意思就是,一个对象在它刚被New出来呱呱(gugu不是guagua)坠地的时候因为被New方法引用了所以他的引用计数就是1,如果它被引用(也就是在之前的基础上 例如:b=a,被丢入函数列表等等被引用就会在引用计数上加1),如果引用它的对象被删除的时候(在之前的基础上DEL b)那么它的引用计数就会减少一。对于情景A,原来再未执行DEL语句的时候,a,b的引用计数都为2(init+append=2),但是在DEL执行完以后,a,b引用次数互相减1。在标记-清除算法中,有两个集中营,一个是。

2022-09-16 15:31:44 105

原创 30 个 Python 教程和技巧

如果您让任何 Python 程序员讲述 Python 的优势,他会引用简洁和高可读性作为最有影响力的优势。在本 Python 教程中,我们将介绍许多基本的 Python 教程和技巧,这些技巧和技巧将验证上述两点。自从我开始使用 Python 以来,我一直在收集这些有用的快捷方式。还有什么事比分享我们所知道的并且可以使他人受益的东西更加有意义?所以今天,我带来了一些基本的 Python 教程和技巧。所有这些技巧都可以帮助您减少代码并优化执行。此外,您可以在处理常规任务时轻松地在实时项目中使用它们。

2022-09-15 20:04:02 132

原创 python 生成器与迭代器

生成器其实就是迭代器。

2022-09-15 15:27:09 142

原创 使用 Mypy 检查 30 万行 Python 代码,总结出 3 大痛点与 6 个技巧!

,所以 Mypy 定义了自己的语法,与 Python 不同,并实现了自己的运行时(也就是说,Mypy 代码是通过 Mypy 执行的)。主要的缺点是,GitHub Issue 中的每个评论仅仅是某个特定时刻的评论——2018 年的一个问题可能已经解决了,去年的一个变通方案可能有了新的最佳实践。诚然,代码行数是一个糟糕的衡量标准,但可作一个粗略的估计:我们的代码仓有超过 30 万行 Python 代码,其中大约一半构成了核心的数据平台,另一半是由数据科学家和机器学习研究员编写的终端用户代码。

2022-09-15 15:22:22 99

原创 python 模块、原始字符串

在字符串前面家上r该字符串就为原始字符串,所有的转义字符都无效。隐藏成员不会被from 模块 import * 导入。sys = system简写 系统的意思。隐藏成员: 模块中以下划线_开头的属性。系统交互模式 = cmd。

2022-09-15 15:17:01 65

原创 Python Web 框架你不会只知道 Django 和 Flask 吧?

Python Web 框架非常多,很多并未出现在上文,一个 Python Web 工程师仅需要学习前 6 款即可,剩下的可以工作中进行学习。

2022-09-14 21:30:17 162

原创 Python操作MongoDB看这一篇就够了

MongoDB是由C++语言编写的非关系型数据库,是一个基于分布式文件存储的开源数据库系统,其内容存储形式类似JSON对象,它的字段值可以包含其他文档、数组及文档数组,非常灵活。在这一节中,我们就来看看Python 3下MongoDB的存储操作。

2022-09-14 20:55:43 6849

原创 PySpark 数据分析基础原理详解

总体而言,PySpark 是借助 Py4j 实现 Python 调用 Java,来驱动 Spark 应用程序,本质上主要还是 JVM runtime,Java 到 Python 的结果返回是通过本地 Socket 完成。

2022-09-14 20:27:44 162

原创 Matlab创建三维箱线图

箱线图(Box- plot)是一种用于显示一组数据分散情况的统计图,多用于多组数据的比较,相对于直方图,既可以节省空间,还可以展示更多信息(如均值、四分位数等)。统计指标一般包括:四分位数、均值、中位数、众数、方差、标准差等,箱线图作为一种数据统计的方法,内容包括:最小值,第一分位,中位数,第三分位数,最大值。(3)第三四分位数Q3:也称作75th百分位数,表示数据集的中位数和最大值之间的中间值(不是“最大值”)。(2)第二四分位数Q2:也称作中位数Median/50th百分位数,表示数据集的中间值。

2022-09-14 15:19:54 291

原创 6个Python开发工程师必须用到的库

无论你是正在使用 Python 进行快速开发,还是在为 Python 桌面应用制作原生 UI ,或者是在优化现有的 Python 代码,以下这些 Python 项目都是应该使用的。Python 凭借其易用的特点,已经被工业界和学术界广泛采用。另一方面,Python 丰富的第三方项目——库、附加组件,和辅助的开发成果——使得 Python 语言的应用范围被不断扩大。其中一些项目,比如 PyInstaller 和 WxPython ,为那些制作桌面应用和终端应用的 Python 开发者提供了便利。

2022-09-13 21:00:58 583

原创 用Python构建和可视化决策树

决策树是当今最强大的监督学习方法的组成部分。决策树基本上是一个二叉树的流程图,其中每个节点根据某个特征变量将一组观测值拆分。决策树的目标是将数据分成多个组,这样一个组中的每个元素都属于同一个类别。决策树也可以用来近似连续的目标变量。在这种情况下,树将进行拆分,使每个组的均方误差最小。决策树的一个重要特性是它们很容易被解释。你根本不需要熟悉机器学习技术就可以理解决策树在做什么。决策树图很容易解释。

2022-09-13 20:41:31 3263 1

原创 Python 条件语句怎么用

python 语句是按固定顺序执行的,先执行前面的语句,再执行后面的语句。如果你像要程序按照你自己定制的流程执行,就需要用到流程控制的语句,最主要用到的是条件语句和循环语句。条件语句用 if 表示,它表示当满足某个条件时,执行下面的分支代码。当条件不满足时,则跳过下面的分支代码。null在互联网产品中,你经常能看到条件判断的场景。比如在一个 app 的登录页面中,输入用户名和密码后,程序会判断用户名和密码是否正确,如果正确,则运行用户进入登录状态。如果错误,则必须重新输入。

2022-09-13 16:46:21 65

原创 Python 如何用类和对象来编程?

类是具备共同特征和共同行为的事物的统称。所谓人以群分,物以类聚。类的表示通常采用驼峰式命名。class Car:passpass什么是对象对象(Object)是一类事物中的一个成员(个体), object 的中文是东西,对象又被称为实例,是一个实实在在存在的东西。我的车你的车隔壁邻居的车通过类得到对象,这个过程叫实例化,类似函数的调用。类和对象的关系类就相当于建造房子时的施工图纸(blueprint),是一个模板,是负责创建房子(对象)的,通过类可以得到对象。

2022-09-13 16:36:56 402

原创 【算法实践】一天路走到黑

线性查找又称为顺序查找,它是最基础的一种查找算法.线性查找的做法非常简单,简单到见名知意:在一列给定的值中进行搜索,从一端开始逐一检查每个元素,直到找到所需元素的过程。线性查找是从第一个记录开始,与记录的关键字逐个比较,直到和给定的关键字相等,则就是查找成功,如果比较的结果与文件中所有记录的关键字都不相等,则查找失败,如果查找池是某种类型的一个表,比如一个数组,简单的查找方法是从表头开始,一次将每一个值与目标元素进行比较,最后,或者查找到目标,或者达到表尾,而目标不存在于组中,这个方法称为线性查找。

2022-09-13 16:29:00 72

原创 Python 并发编程之死锁

在并发编程中,死锁指的是一种特定的情况,即无法取得进展,程序被锁定在其当前状态。在大多数情况下,这种现象是由于不同的锁对象(用于线程同步)之间缺乏协调,或者处理不当造成的。在这一节中,我们将讨论一个思想实验,通常被称为餐饮哲学家问题,以说明死锁的概念及其原因;从这里开始,你将学习如何在 Python 并发程序中模拟这个问题。本文首先介绍了并发编程中的经典问题——哲学家就餐问题,然后引出了死锁的概念及条件。然后给出了可能出现死锁的情况,并通过 Python 代码模拟哲学家就餐问题和模拟死锁的四种情况。

2022-09-13 16:08:03 1047

原创 Python — 使用 Bokeh 进行数据可视化

是 Python 中的数据可视化库,提供高性能的交互式图表和绘图。Bokeh 输出可以在笔记本、html 和服务器等各种媒体中获得。箱线图箱线图用于表示图表上的统计数据。它有助于总结数据中存在的各种数据组的统计属性。散点图散点图用于绘制数据集中两个变量的值。它有助于找到所选的两个变量之间的相关性。直方图直方图用于表示数值数据的分布。直方图中矩形的高度与类间隔中值的频率成正比。条的长度与表示的值成比例。散点标记要创建散点圆标记,使用 circle() 方法。单行要创建单行,使用 line() 方法。

2022-09-08 21:55:50 1458

原创 Python探索性数据分析

描述性统计,这是一种简要概述我们正在处理的数据集的方法,包括样本的一些度量和特征分组数据 [使用group by 进行基本分组]ANOVA,方差分析,这是一种计算方法,可将观察集中的变化划分为不同的分量。相关和相关方法。

2022-09-08 21:44:43 1487

原创 Python 中不同图表的数据可视化

散点图显示了两个不同变量之间的关系,它可以揭示分布趋势。当有许多不同的数据点,并且您想突出数据集中的相似性时,应该使用它。它通过以简单易懂的格式汇总和呈现大量数据,帮助人们理解数据的重要性,并有助于清晰有效地传达信息。. 术语“箱线图”来自这样一个事实,即图形看起来像一个矩形,线条从顶部和底部延伸。直方图表示特定现象发生的频率,这些现象位于特定的数值范围内,并以连续和固定的间隔排列。柱形图用于显示不同属性之间的比较,或者它可以显示项目随时间的比较。因此,输出中的这些图显示了每个属性的每个唯一值的频率。

2022-09-08 21:36:35 683

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除