自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(44)
  • 收藏
  • 关注

原创 致广大读者的一封信

学习编程之后,可以说是发生了翻天覆地的变化,生活圈、交际圈可能就不局限在了身边这些人,可能通过网上群、博客、或者技术会,一群志同道合的组织的活动等等,这个知识圈最明显了,比如:以前学习的话预计度娘就是你经常找的地方了,度娘没有的估计就只能询问前辈。程序猿是个比较特殊的行业,技术更新叠加快,有着不进则退的特性,只要你停止了学习,你就可能被淘汰,因此不像很多的行业,只要你工作经验丰富,你就能有一席之地,然而程序猿就不行,假如你不学习进步、奋斗努力,你可能几年之后还是个初级码农都是完全有可能的。

2023-03-16 16:30:21 107 1

原创 扬帆起航!

从前觉得写文章这件事很简单,直到有一天觉得写文章真的费时又费力,但是既然开了这个头,又觉得放弃了太可惜,在挣扎了一年多之后,今日决定:重新扬帆起航!日期:2023年3月16日。

2023-03-16 16:25:59 90

原创 暂缓更新博客通知

2023 年正式脱离上家公司以后想了很久,下定决心在行业中闯荡一番,与几个志同道合的伙伴开始创业了,想要做的东西有很多,眼下正在做的和将要做的也有很多,没办法,只能一步一步来,权衡利弊以后决定博客更新的排期往后放了放。目前在做什么产品暂时不方便透露,如果创业顺利的话,在未来会告诉大家。希望大家能够耐心等待,在不久的未来,本博客还会继续为大家呈现实用的文章。想了很久,还是决定通知大家,本技术博客在未来一段时间将暂缓更新。

2024-01-27 22:52:02 353

原创 从零开始学Python系列课程第18课:容器型数据类型之列表(中)

之前讲比较运算符的时候,我们举的例子都是数字比较大小,其实所有的数据类型都可以做大小的比较,只不过要遵守一定的规则规范,那么接下来我们看一下列表与列表应该如何进行大小的比较。Python 中存在很多灵活的方法,列表的相关方法只是其中一部分,学的时候虽然会感到繁琐,但是未来有需求时,大家会看到这些基础是多么的重要,所以还是希望大家打好基础。为什么列表 a 小于列表 b 是假的,列表 a 大于列表 c 是真的呢?在运算符下篇中,我们其实已经使用列表讲述过成员运算,大家可以适当的进行复习。

2024-01-20 01:59:13 398

原创 可狱可囚的爬虫系列课程 12:在网站中寻找 API 接口(补充)(王者荣耀英雄信息抓取)

我们前面讲过了怎么在网站中找接口,如何在开发者工具中判断是不是接口,但是凡事都有例外,今天我还要再针对此问题做一次详细描述。本次就以王者荣耀官网为例,带大家进行学习。

2024-01-16 01:39:52 900

原创 可狱可囚的爬虫系列课程 11:Requests中的SSL

我们在文章中遗留了一个问题,就是为什么要添加 verify=True 这个参数,今天我给大家单独解释一下,这还要从网站的 SSL 证书说起。

2024-01-11 22:01:41 1113

原创 数据处理系列课程 02:Jupyter环境搭建

Jupyter 是一个在网页端的应用程序,其以友好的交互计算和良好的数据展示而知名,可以用于代码开发、文档撰写、代码运行和结果展示。简单的说,你可以在网页中直接编写代码和运行代码,代码的运行结果也会直接在代码块下方进行展示。如果需要在编写代码的过程中编写说明文档,也可以在同一个文件中使用 Markdown 格式进行编写,而且可以直接看到渲染后的效果。此外,Jupyter 的设计初衷是提供一个能够支持多种编程语言的工作环境,目前它能够支持超过40种编程语言,包括 Python、R、Julia、Scala 等。

2024-01-05 10:54:40 738 1

原创 可狱可囚的爬虫系列课程 10:在网站中寻找 API 接口(今日头条热榜爬取)

上一篇文章我们讲述了爬虫中一个比较重要的知识点,如何从 API 接口中获取数据,本篇文章我们继续讲述,如何在网站中寻找 API 接口,我们以“今日头条”网站 https://www.toutiao.com/ 为例。如上图所示,如果要获取页面新闻数据,可能大部分同学的想法就是直接 Requests 结合 BeautifulSoup4 库进行数据的爬取,但是我们不妨先来找找看有没有 API 接口能够让我们更快速的得到数据。

2024-01-04 23:45:31 2606

原创 可狱可囚的爬虫系列课程 09:通过 API 接口抓取数据

API 接口是负责传递数据的,在现今互联网已存在的网站中,除了极个别非常古老的网站,大部分的网站都会采用 API 接口进行数据的传输。那么为什么 API 接口这么受欢迎呢,那当然是其带来了很多的好处,最直观的便是极大地节省了开发的成本。

2024-01-04 10:38:20 1781

原创 可狱可囚的爬虫系列课程 08:新闻数据爬取实战

本篇文章中我带大家针对前面所学 Requests 和 BeautifulSoup4 进行一个实操检验。,爬取内容如图所示,我们要爬取每一条新闻的新闻类型、新闻标题、跳转链接、发布时间。

2024-01-03 11:14:24 1964 3

原创 从零开始学Python系列课程第17课:容器型数据类型之列表(上)

列表算是 Python 中比较常用的一种容器型数据类型,那么什么是列表,列表有什么样的作用致使它在 Python 中这么受欢迎呢?这便是接下来我们要一起讨论的问题。在不久之前我们讲过变量,我们将数据使用变量保存,但是如果涉及到多组数据仍然源源不断的创建变量进行保存,我们的代码就显得过于臃肿。那么有没有可能一个变量能够保存多个数据呢,答案是肯定的,我们可以先将数据依次放入容器中(这样一个保存有多组数据的容器可以被理解为是一个数据集合体的),再用变量保存这个容器,等需要用到数据时,从容器中提取出即可。

2023-12-29 17:29:04 402

原创 数据处理系列课程 03:数据处理的科学性之初识NumPy

前面我们才提到数据处理是一件非常重要的事情,数据处理的是否得当直接关系到最终的成果,所以针对数据要做缺失值处理、离群点处理、重复值处理、噪声处理、规范化处理、离散化处理、稀疏化处理等处理,这些处理操作的基础都是建立在数学的基础上,利用数学将数据质量提高,所以今天我们要借助 NumPy 这个库。

2023-12-25 00:27:39 356

原创 MySQL 数据库系列课程 05:MySQL命令行工具的配置

命令行工具其实要比可视化工具好用的多得多,只是我们现在使用的各种软件都是有界面的,不需要大家过多的记忆很多指令,为绝大部分人使用电脑降低了很多学习成本。虽然上篇文章我们进行了 Workbench 这个 MySQL 可视化工具的安装,虽然有了可视化工具让我们能够在有界面的软件中写 SQL 语句,但是程序员也一定不能脱离命令行工具的使用,本文我们讲述了 MySQL 命令行的配置,在未来希望大家能有意识的尝试使用命令行工具。,这个带有 Unicode 的,是支持中文的,允许在命令行中敲中文。

2023-12-24 06:54:58 964

原创 MySQL 数据库系列课程 04:MySQL Workbench的安装

Workbench 是 MySQL 官方推出的免费的强大的可视化工具,不熟悉命令行工具的人,可以安装这一款软件,通过编写 SQL 进行数据库中数据的增删改查操作,接下来我们详细说明一下 Workbench 的安装。

2023-12-24 06:31:32 535

原创 MySQL 数据库系列课程 03:MySQL数据库相关软件的下载和安装

俗话说:“工欲善其事,必先利其器”,开始学习 MySQL 之前我们一定是要做环境准备的,接下来我们来讲解一下 MySQL 的安装。

2023-12-24 06:17:01 1024

原创 数据处理系列课程 01:谈谈数据处理在数据分析中的重要性

要知道无论数据有多少,我们使用的数据基本上都是来自生产、生活、商业中的实际数据,在现实世界中,由于种种原因,数据总是有这样那样的问题。所以说错误在所难免,这四大步又各自分出了一系列小步骤,像缺失值处理、离群点处理、重复值处理、噪声处理、规范化处理、离散化处理、稀疏化处理等,对数据经过一系列处理后,才能够保证数据质量最优,才能让应用者对数据分析出来的结果信服。是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解,以求最大化地开发数据的功能,发挥数据的作用。

2023-12-24 01:19:32 943

原创 可狱可囚的爬虫系列课程 07:BeautifulSoup4(bs4)库的使用

BeautifulSoup4 属于 BeautifulSoup 系列的第四代版本,BeautifulSoup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库,这个库能够实现树文档的导航、查找,从而帮助我们提取到网页中所需要的数据。。如果忘记了在哪里安装,请回看 Requests 模块第一篇文章。安装好以后,我们围绕数据提取这个话题对 BeautifulSoup4 进行剖析。<body>"""# 问题一:使用标签选择器获取源代码中所有的 p 标签。

2023-12-20 06:57:51 1673

原创 从零开始学Python系列课程第16课:Python常见容器型数据类型介绍

Python 中有个容器的知识点非常重要,一定要认真学习。后续让我们按照顺序,一个一个来学习。

2023-12-16 18:05:32 387

原创 从零开始学Python系列课程第15课:range 方法详解

在循环结构上篇讲述 for-in 循环时,有一个 range 方法的知识点没给大家讲,本篇文章我们单独给大家做一个详细讲解。range 方法的作用就是根据给定的 start、stop、step 三个参数,生成一个包含有规律整数的容器。我们再结合 for-in 循环打印 10 以内 2 的倍数(包括 10)。

2023-12-16 17:53:40 589

原创 从零开始学Python系列课程第14课:Python中的循环结构(下)

在本篇文章中,我们对上文讲过的循环结构做少许补充,除去 for-in 循环和 while 循环,其实还存在for-else 结构 和 while-else 结构。(3)最后还要看代码的逻辑依据是什么,编程的基础是数学,此处使用了素数的判断条件,我们把输入的正整数 num 作为 range 方法生成数字的区间,构造了 [2, num)的左闭右开区间,结合上文讲过的 for-in 循环的原理,其实就是用穷举法在 [2, num)中找 num 的因子来决定 num 能否作为素数。

2023-12-12 21:38:52 403

原创 从零开始学Python系列课程第13课:Python中的循环结构(上)

Python 中的循环结构(上)给大家讲述的就是基础中比较重要的知识点了,希望大家在学习之余还能够自行搜寻更多的资料,争取早日融会贯通。

2023-12-12 20:49:47 929

原创 从零开始学Python系列课程第12课:Python中的分支结构

然而仅有顺序结构并不能解决所有的问题,比如我们设计一个游戏,游戏第一关的通关条件是玩家获得1000分,那么在完成本关卡游戏后,我们要根据得分来判断玩家能否进入下一关,这里就会产生通关和不通关两个分支,而且这两个分支只有一个会被执行。注:如果输入的成绩在90分以上(含90分)输出A;80分-90分(不含90分)输出B;三目运算结构只是单分支结构的变形,程序的性能没有任何变化,只是在某种程度上变得更加美观,但是并不是所有的单分支结构都可以转化为三目运算结构的形式,请看三目运算结构的语法和解释。

2023-12-06 22:23:07 906

原创 可狱可囚的爬虫系列课程 06:Requests的timeout参数

各位同学在使用爬虫时,有没有遇到过请求发出去很久却迟迟得不到响应结果的情况,相信很多同学都有过相似的经历,今天我们借助本文来给大家说一说应该如何解决。

2023-12-05 17:32:41 980

原创 MySQL 数据库系列课程 02:MySQL数据库管理系统介绍

MySQL是一个开放源代码的关系型数据库管理系统,于1995年开发,迅速成为开源数据库的 No.1。2008年被 Sun(Java创造者) 收购(10亿美金),2009年 Sun 被 Oracle 收购。MariaDB 应运而生(因为Oracle数据库闭源,MySQL 的创造者担心 MySQL 有闭源的风险,因此创建了 MySQL 的分支项目 MariaDB)。虽然MySQL开源,但是现在 MySQL 也开始区分社区版和商业版。

2023-12-02 23:07:16 385

原创 MySQL 数据库系列课程 01:数据库概述

数据库是“按照数据结构来组织、存储和管理数据的仓库”,是一个长期存储在计算机内的、有组织的、可共享的、能统一管理大量数据的集合,它解决了数据持久化和数据管理的问题。什么是数据结构众所周知,计算机的基本功能大多基于对数据的操作,但当数据较多时,特别是在如今的数据时代,数据量越来越庞大,该如何组织这些数据,使之能被更高效地处理呢?

2023-12-02 22:58:55 888

原创 从零开始学Python系列课程第11课:Python中的格式化字符串

个人觉得f-字符串会比旧式字符串格式化方法和format函数好用一些,当遇到变量比较多、字符串传值比较多的时候,只需要关注变量名是否填写正确,而不用关注顺序和索引,相对来说不容易犯错。

2023-11-30 20:41:30 335

原创 可狱可囚的爬虫系列课程 05:Requests爬虫基础伪装

HTTP 请求头,简称请求头,是 HTTP 协议传输过程中规定的一系列键值对,它用来描述客户端的环境信息、请求偏好等。请求头是 HTTP 请求的一部分,包含了操作系统、浏览器类型、请求方法(GET、POST 等)、语言等信息。服务器根据这些信息来处理请求并生成适当的响应。

2023-11-30 14:29:47 2030

原创 从零开始学Python系列课程第10课:Python基础语法之运算符(下篇)

通过结果我们发现,a 和 b 两个列表的内存地址不一样,它们仅仅是两个长得一样的对象;这就是身份运算符的表层使用,在未来我们讲解更多的 Python 基础知识以后,我再把身份运算符以及其背后涉及到的 Python 内存地址给大家进行介绍。成员运算符,用来检测某个数据是否在另一个数据容器中的运算符,包括 in、not in 两种符号,结果会返回 True 或者 False。由此可见,我们可以用成员运算符来判断元素在与不在的问题,尤其是当数据量比较小的时候,使用成员运算符非常方便。

2023-11-29 17:35:28 342

原创 可狱可囚的爬虫系列课程 04:Requests常见乱码问题

很明显,我们这里遇到的问题是符号码,产生原因就是以 ISO8859-1 方式读取了 UTF-8 编码的中文,我们将其解析回来即可。,经过对原始数据的修改,乱码问题就能够解决掉。

2023-11-13 17:33:49 657

原创 可狱可囚的爬虫系列课程 03:Requests模块的简单使用

Requests 是一个简单的 HTTP 库,允许使用者发送 HTTP 请求。说白了我们能够通过 Requests 模块向指定的 URL 所在服务器发送请求,从而拿到服务器返回的响应结果,进而解析出我们需要的数据。

2023-11-13 17:31:28 1260

原创 可狱可囚的爬虫系列课程 02:爬虫必会概念

在开始学习爬虫之前,我们有必要详细了解一些概念的基本原理,这对于我们学习爬虫有很大的帮助!

2023-11-13 17:26:24 723

原创 可狱可囚的爬虫系列课程 01:爬虫了解

简言之,爬虫就是一种可以帮助我们把网站上的信息快速提取并保存下来的一种工具。通俗的解释就是,我们可以把互联网比作一张大网,而爬虫便是在网上爬行的蜘蛛(Spider)。把一个个的网站看成蜘蛛网上的节点,爬虫爬到某个节点就相当于访问了某个网站,就能够把网站上的信息提取出来。我们可以把节点间的连线比作网站与网站之间的互通关系,这样蜘蛛通过一个节点后,可以顺着连线继续爬行到下一个节点,即爬虫在互联网中是可以随意爬行的,这样整个互联网中的数据便可以被爬虫全部爬取。

2023-06-30 10:11:50 544 1

原创 从零开始学Python系列课程第09课:Python基础语法之运算符(上篇)

我们在数学中,经常使用数学运算符进行一系列的数学运算、使用比较运算符进行比较大小的操作等,那么同理,在Python语言中也支持很多运算符,包括等,接下来在上篇,我们先来讲解算术运算符、比较运算符、赋值运算符、逻辑运算符。

2023-06-29 21:43:50 105

原创 爬虫字体反爬的解决(三)

代码中没涉及太多的注释,一方面是考虑到爬虫能学到这一步,相信大家能力是足够的;另一方面也是为了让大家能够自己探求每一行代码在程序中的功能,所以只提供代码和大致思路,具体的理解就依靠大家自己了。

2023-06-25 01:10:41 1432 6

原创 爬虫字体反爬的解决(二)

如果说数据加密编码、字体文件不一样,不算是太可怕的事情,但是打开字体文件才发现,不同字体文件里面的编码相同,但是对应的数字变了,原来不同文件中构建的映射,是同一批编码和符号的随机组合,如果这个问题不解决,拿出来的数据就会有误差,这下子真头疼了。我按照上篇文章讲述的,找数据接口、找字体文件,结果发现,找到的接口中的同一辆车的加密编码不一样了,找到的字体文件的链接不一样了,下载下来的文件也有区别。最后希望“Guazi used car”的项目组人员看不到这两篇文章,不然反爬可能还会升级😂!

2023-06-15 15:17:14 742

原创 从零开始学Python系列课程第08课:Python 中的格式化字符串

个人觉得f-字符串会比旧式字符串格式化方法和format函数好用一些,当遇到变量比较多、字符串传值比较多的时候,只需要关注变量名是否填写正确,而不用关注顺序和索引,相对来说不容易犯错。

2023-06-07 11:39:25 98 2

原创 从零开始学Python系列课程第07课:Python的输入和输出函数

在程序的执行过程中,可能我们有需要与程序进行交互的地方,那么这些交互应该怎样去编写,是我们需要思考的问题,为此Python提供了输入和输出函数,以便我们和程序之间的简单交互操作。

2023-05-25 16:16:12 499 1

原创 爬虫字体反爬的解决(一)

学习了前边的爬虫知识,大家一定爬取过很多的网站了,也一定被很多网站的各式各样的反爬机制劝退过,那么这些反爬机制如何来破解,大家也一定想破了头,本节课,我们来搞点不同寻常的有深度的事情——破解字体反爬!大家看目录,发现我把字体反爬分了多个章节,可想而知字体反爬的“困难程度”,但是不要紧,我们会把目前的字体反爬技术一一给大家讲解!

2023-05-06 14:59:44 1636 4

原创 从零开始学Python系列课程第06课:Python基础语法之变量

例如你在写毕业论文,你的毕业论文已经写了1W字,你需要将论文保存起来,这个时候你就得给保存论文数据的文件起个名字,这个名字就指代了你的论文数据,下次直接找这个名字就可以找到你的论文数据。这个名字就是变量,这也是变量的使用意义。对于每一个变量我们都要给它取一个名字,就如同我们每个人都有自己的名字一样,相信大部分人的名字都是有特殊意义的,在编程中,也不例外。另外,作为一个专业的程序员,给变量命名除了遵守上面的规则外,变量名字的见名知意也是非常重要的。当你学过变量以后,你就会通过变量的赋值和调用进行数据的输出。

2023-04-01 12:35:11 96

原创 从零开始学Python系列课程第05课:Python基础语法之注释

在互联网行业,尤其是对于容易“秃头”的码农们来说,看别人代码是最痛苦的。所以为了解决这个问题,让代码更易懂,编程语言们提供了一个名叫“但是注释的作用不仅如此,还可以将源代码中暂时不需要运行的代码注释掉来实现阻止执行的效果。是编程语言的一个重要组成部分,用于在源代码中解释代码的作用从而增强代码的可读性。注释能够让代码更容易看懂但不会影响程序的性能和执行的结果!说明:单行注释是有快捷键的,可以使用。快捷键进行单行注释。

2023-03-29 18:20:27 60

常用停用词表整理(川大、哈工大、百度等)

Python 数据分析机器学习领域哈工大、川大等常用停用词表

2023-12-11

Cat's eye movie 字体反爬解决完整代码

Cat's eye movie 字体反爬解决完整代码,完全免费,快去下载!!!

2023-06-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除