自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 数据分析(jupyter lab版):散点图、饼图、雷达图

注意:在绘制雷达图时,我们的数据列表一个数据和最后一个数据要相同,因为可以直观发现我们的雷达图是一个闭环图,第一个和最后一个数据相同时才可以闭环,反之就会是以下这种情况。在s代表散点的大小,c代表颜色,alpha代表透明度,其取值范围是0-1,market指的是点的形状,值是什么,形状就是什么。散点图也叫 X-Y 图,它将所有的数据以点的形式展现在直角坐标系上,以显示变量之间的相互影响程度,点的位置由变量的数值决定。雷达图也称为网络图、蜘蛛图、星图、蜘蛛网图,它被认为是一种表现多维数据的图表。

2024-05-19 16:04:53 452 3

原创 数据分析(jupyter lab版):柱状图

具体来说,xy参数指定了标签的位置,xytext参数指定了标签文本的位置偏移量,偏移量是指每一根柱子上的数字的位置改变,这样就可以在图表中显示每个数据点的具体数值。代码进行排序,排序的依据是元素的第二个值(索引为1的值),并且以降序(reverse=True)的方式进行排序。所以,zip(day_money, xs)实际上就是将 day_money 和 xs 中对应位置的元素打包成元组的形式,以(day_money, xs)元组的形式用于后续的操作。柱状图利用柱子的高度,反映数据的差异。

2024-05-09 15:34:55 1247 1

原创 数据分析(jupyter lab版):丰富图表

在我们进行数据分析绘制的图表通常都需要添加更多的内容进行修饰,这里沿用上篇:数据分析(jupyter lab版):折线图的数据进行丰富,以下的代码适用于大部分图表。

2024-05-08 15:40:51 218 1

原创 数据分析(jupyter lab版):折线图

折线图用折线的起伏表示数据的增减变化情况。不仅可以表示数量的多少,而且可以反映数据的增减变化情况。折线图来描绘统计事项总体指标的动态、研究对象间的依存关系以及总体中各部分的分配情况等。其特点是易于显示数据变化趋势以及变化幅度,可以直观地反映这种变化以及各组之间的差别。在使用jupyter lab进行数据分析时,首先下载matplotlib,它是一个python 2D绘图库,利用它可以画出许多高质量的图像。导入绘图对象,as后面的对象可以随意取。用自己取的对象名进行库的调用,画布是指整个图的大小。

2024-05-08 15:08:49 486 1

原创 数据分析(jupyter lab版):基础快捷键操作

为一行或多行代码添加/取消注释: Ctrl+/ (Mac:CMD+/)多光标操作: Ctrl键点击鼠标 (Mac:CMD+点击鼠标)Shift+Enter ,执行本单元代码,并跳转到下一单元。可以操作cell内文本或代码,剪切/复制/粘贴移动等操作。Ctrl+Enter ,执行本单元代码,留在本单元。快速跳转到首个cell: Crtl+Home。回退: Ctrl+Z (Mac:CMD+Z)重做: Ctrl+Y (Mac:CMD+Y)A:在该单元格的上方插入新单元格。Y :在命令模式下转入代码状态。

2024-04-27 19:29:28 804

原创 字体反爬:图片

在我们使用python进行数据抓取并在开发者页面进行定位时,会发现我们想要的数据都在标签里面,并没有文本数据。在标签里面有一个url地址(图1红色部分),复制该地址搜索会出现一张图片,里面有着一串数字(图2红色部分),这就说明数据进行了加密并且是以图片的形式,那么数据是以什么样子的形式进行加密呢?在图1绿色部分,-140px叫做偏移量,一种数据加密的形式,如果你对想要抓取的数据一个一个进行定位会发现,一个偏移量对应一个数字,并且偏移量以某种规律呈现。分析到这,我们就可以进行数据的解析等操作。

2024-04-20 17:25:29 320

原创 字体反爬:汉字

与上篇不同的是这里替换字体的方式不同,下面的mapping值是指自己构建的字体映射规则,string是指解析数据时得到的汉字乱码(如图1),而后在调用函数将参数进行实例化,用for循环的原因是乱码数据不止一个。随后我们随意对里面的一个属性进行复制,在元素面板里找到相应关键字的标签,在它对应的上一级标签里面,会出现数字、字符串和符号组成的一串代码,这实际就是url编码,里面包含页面所有的数据(图3)在发现unescape是url编码之后,就需要进行解码,这里是使用了正则表达式进行数据匹配。

2024-04-20 14:28:57 340 2

原创 字体反爬:数字

在进行python爬虫的过程当中,往往我们会遇到一些数字,明明在页面上的数字是正常,结果爬下来的数据是由字符串加数字加符号等形式出现,这个时候就是遇到字体反爬,那该如何解决呢?在html数据当中,放置字体的容器主要分为woff,eot等,由他们构成网页的所有字体,而运用最多的就是woff容器,也是这边文章的主要解决方向。在打印后可以看到一个字典,会发现每个键和html数据当中的乱码相似,而对应的值就可以由上面的那个软件进行对应,注意:是由上面的英文对应下面的数字。

2024-04-15 16:38:46 481 2

原创 app爬虫及其代理

在Reqable的顶部中的Proxying on部分就是自己的代理ip:端口,端口可以随意设置:9999,8080都可,在明确自己的代理 ip:端口 后就需要为模拟器进行配置。在将这些配置完之后在它自带的浏览器当中搜索数据网址可能会出现安全警告,影响后续的数据抓取,所以这里推荐在网页上找其他浏览器的apk文件拖到模拟器中下载使用即可。打开自己的模拟器,选择设置后点击的wlan项,点击设置,找到修改项,选择手动代理,依次填入代理服务器主机名和代理服务器端口,点击保存即可。这里就可以看到你所需要的各种数据。

2024-04-15 12:35:55 614 1

原创 selenium获取网页地址及进入到网页当中

当运行python进入到网页时,大部分网页都会检测selenium模块,进而进行反制,所以,在这里我们可以携带浏览器当中的用户信息,前提我们需要在浏览器中先进行登录操作,然后在使用selenium模块就可以跳过登录验证码。driver = webdriver.Chrome(service=service, options=option) # 请求服务。在使用selenium时,我们需要模块驱动,chromedriver.exe文件,这里可以直接在浏览器当中进行搜索。"""获取某宝网址"""

2024-04-13 15:14:32 421 1

原创 selenium实现页面下拉

document.documentElement.scrollHeight 获取当前页面的最大高度。# execute_script(js_all) 调用js代码, 括号内部传js代码字符串。# document.documentElement.scrollTop 指定页面的高度。在使用selenium模块抓取某宝网页数据时,需要进行页面下拉让页面加载数据。在init_count后面的数字需要自己大致计算,可以通过代码。"""下拉到指定位置的次数"""

2024-04-13 14:44:53 417 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除