自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 问答 (1)
  • 收藏
  • 关注

原创 Python爬虫——爬取简历模板

以上就是爬取简历模板的全部过程,程序中只爬取了第一、二、三页,如果想获取更多的模板,可以修改for循环翻页中的数字。在程序中,为了分解每个步骤,把各个部分的代码分开写。可以尝试将各个步骤合并起来,比如,获取到模板详情页的URL之后,对该URL发起请求来获取模板的下载地址,再对下载地址发起请求来将文件保存到本地,需要多嵌套几层循环。该网站中还有其他模板,比如ppt、各种类型的图片等等。如果感兴趣可以继续去探索。

2023-11-22 22:03:13 1091

原创 Matplotlib用法2

直方图(Histogram),又称为质量分布图,它是条形图的一种,由一系列不等高的纵向线来表示数据分布情况。barh()函数的用法与bar()函数的用法基本一样,只是在调用barh()函数时使用y参数传入Y轴数据,使用width参数传入代表条柱宽度的数据。散点图scatter,散点图也叫X-Y图,它将所有的数据以点的形式展现在直角坐标系上,以显示变量之间相互的影响程度,点的位置由变量的数值决定。词云图,也叫文字云,是对文本中出现频率较高的“关键词”予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息。

2023-10-22 13:26:32 218 1

原创 Matplotlib用法1

数据可视化就是将数据转换成图或表等,以一种更直观的方式展现和呈现数据。通过“可视化”的方式,我们看不懂的数据通过图形化的手段进行有效地表达,准确高效、简洁全面地传递某种信息,甚至帮助我们发现某种规律和特征,挖掘数据背后的价值。图表为更好地探索、分析数据提供了一种直观的方法,它对最终分析结果的展示具有重要的作用。柱状图一般用来描述离散型的分类数据的对比,每一根柱子的宽度是固定的,每根柱子之间存在间距,横轴的变量可以任意排序。

2023-10-16 18:30:09 209 1

原创 Django入门03——Django模板

在Django框架中,模板时可以帮助开发者快速生成呈现给用户页面的工具。模板的设计方式实现了我们MVT中VT的解耦(M:Model,V:View,T:Tempalates),VT有着N:M的关系,一个V可以调用任何T,一个T可以供任意V使用。模板中的动态代码段除了做基本的静态填充,还可以实现一些基本运算、转换和逻辑。静态页面:页面数据是本地固定的动态页面:页面数据来源于后台服务器:视图函数传递给模板的数据,遵守标识符规则使用索引,不允许负索引</</</</格式。

2023-10-09 16:44:43 365 1

原创 Python爬虫爬取4k高清图片——xpath解析

在浏览器的网址栏输入该URL,确实能请求到第一页,由于每一页的URL的变化是不连贯的,但是从第2页开始是有规律的。所以我们可以单独获取第一页的图片,再通过循环获取第2页到第22页的图片。标签获取该页面中每一张图片的数据,由于通过xpath获取的数据会存储到一个列表中,所以我们需要通过下标索引取出对应的值。对比img标签中的src属性值可以发现,src中的图片地址是不完整的,所以在获取图片地址后需要将其拼接成完整的地址。图片的部分地址在img标签的src属性中,图片的名称是img标签alt属性的属性值。

2023-10-05 15:29:18 1107

原创 Numpy数据分析05——函数

Numpy中也有自己的随机函数,包含在random模块中,它能产生特定分布的随机数,如正态分布。运行结果:第一个数组是纵轴数据,第二个数组是横轴数据。rand()表示生成[0,1)之间的随机数。标准正态分布又称为U分布,是以0为均值、以1为标准差的均匀分布,记为N(0,1)。使用相同的seed()值,则每次生成的随机数都相同,使得随机数可以预测。但是,只在调用的时候seed()并不能使得生成的随机数相同,需要每次调用都seed()一下,表示种子相同,从而生成的随机数相同。

2023-10-05 13:36:57 66

原创 Numpy数据分析04——数据类型和文件操作

数据类型:在内存中统一使用Unicode编码,记录到硬盘或者编辑文本的时候都转换成了utf-8。UTF-8将Unicode编码后的字符串保存到硬盘的一种压缩编码方式。定义结构化数据使用数据类型标识码:还可以将两个字符作为参数传递给数据类型的构造函数。此时,第一个字符表示数据类型,第二个字符表示该类型在内存中占用的字节数(2、4、8分别代表精度为16、32、64位的浮点数)运行结果:以下示例描述一位老师的姓名、年龄、工资的特征,该结构化数据包含以下字段运行结果:整数类型长度的选择:字符

2023-10-04 19:37:43 379 1

原创 Django入门02——Django路由

在实际开发过程中,一个Django项目会包含很多的app,这时候如果我们只在主路由里进行配置就会显得杂乱无章,所以通常会在每一个app里,创建各自的urls.py模块,然后从跟路由出发,将app所属的url请求,全部转发到相应的urls.py模块中。而这个从主路由转发到各个应用路由的过程叫做路由的分发。

2023-10-04 16:18:58 1197 1

原创 Django入门01

方式一:打开cmd,进入到指定要存放项目的目录,执行django-admin startproject Mysite 来创建一个名字为Mysite的工程。如下图,进入D盘下的pycharmproject目录中,并创建了一个名为HelloDjango的Django项目。方式二:使用专业版Pycharm创建Django项目。

2023-10-02 23:19:07 140

原创 Numpy数据分析03——Numpy统计

变异系数(Coefficient of Variation):当需要比较两组数据离散程度大小的时候,如果两组数据的测量尺度相差太大,或者数据量纲的不同,直接使用标准差来进行比较不合适,此时就应当消除测量尺度和量纲的影响,而变异系数可以做到这一点,它是原始数据标准差与原始数据平均数的比。通过变异系数可知,第一支股票的业绩表现的变异系数较小,因此它的业绩表现较第二支股票稳定;标准差有计量单位,而方差无计量单位,但两者的作用一样,虽然能很好的描述数据与均值的偏离程度,但是处理结果是不符合我们的直观思维的。

2023-10-01 14:07:14 850

原创 Python网页爬虫爬取豆瓣Top250电影数据——Xpath数据解析

本次程序只爬取了豆瓣top250电影的展示页面的数据,没有爬取电影详情页的数据。在前面我们已经获取了每一部电影详情页的链接links,如果想要爬取电影的详情页,可以通过for循环遍历列表links,对每一个详情页发起请求,从而获取电影详情页的数据并进行解析。

2023-09-26 12:04:57 56694 8

原创 Numpy数据分析02——切片和索引

ndarray对象的内容可以通过索引或切片来访问和修改,与Python中list的切片操作一样。ndarray数组可以基于0-n的下标进行索引注意:区别在于数组切片是原始数组视图(这就意味着,如果做任何修改,原始数组都会跟着更改)。这也意味着,如果不想更改原始数组,我们需要进行显式的复制,从而得到它的副本(.copy())。通过切片和copy复制原列表都是复制赋值,通过直接等于是引用赋值。冒号:的解释:如果只放置一个参数,为什么切片和区间会忽略最后一个元素计算机科学家edsger w.dij

2023-09-25 18:51:16 2477 1

原创 Python网页爬虫——数据解析方法

数据解析原理概述:我们需要解析的是网页中的数据,即从html中解析出想要的数据。如果想要拿到数据,只需要定位到具体的指定的标签之后,就可以将标签中存储的文本或者标签中对应属性值所存储的文本数据获取到。xpath解析不仅可以应用到Python编程语言中,还可以应用到其他编程语言中,是通用性最强的数据解析方式。爬取局部的内容需要在通用爬虫获取的网页数据上,对数据进行解析,主要有三种解析方式:正则、bs4、xpath。Step2:对标签或者标签对应的属性中存储的数据进行提取(解析)抓取的是页面中特定的局部内容。

2023-09-24 23:12:05 2332 1

原创 Numpy数据分析01

Numpy全称Numerical Python,它是:(1)对于同样的数值计算任务,使用Numpy比直接Python代码实现,优点:(2)Numpy是Python各种数据科学库的基础库比如:Scipy、Scikit-Learn、TensorFlow、pandas等在Windows系统下安装Numpy有两种常用方式,下面分别对其进行介绍。(1)用原生Python实现(2)用Numpy实现对比实现100次输出结果:线形图:柱状图:(1)参数# array()函数,括号内可以是列表、元

2023-09-24 15:23:54 161

原创 Python网页爬虫爬取起点小说——re解析网页数据

1、需要注意响应内容是否与网页源码格式相同2、编写正则表达式时需要将网页源码或者响应内容中的对应元素复制出来,观察其格式,按照格式去编写正则表达式3、如果我们查找不到对应的内容,或者只取到对应内容的一部分,则我们需要扩大查找范围,正则表达式的编写从开始标签的下级标签开始查找。4、建议每次获取到数据都输出查看是否是我们想要的格式和内容。

2023-09-21 20:51:25 3803 1

原创 Python爬虫实例01

因为在响应包中得知响应数据的类型content-type是application/json,即json类型的数据,因此我们可以用json()方法获取到响应数据对象(object),object的类型是python中嵌套了字典的列表类型。PS:如果要在一个程序中爬取多个城市的全部肯德基餐厅的数据,可以将城市名封装在一个列表中,通过循环列表,将每一个城市名依次赋值给data参数中的keyword,就可以指定不同地点,不用每次都输入城市名。在包的预览项中可以发现我们想要获取的数据,其类型是json数据类型。

2023-09-17 17:35:42 312 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除