自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 Java中的main( )函数

在Java中,main()方法是Java应用程序的入口方法,也就是说,程序在运行的时候,第一个执行的方法就是main()方法,这个方法和其他的方 法有很大的不同,比如方法的名字必须是main,方法必须是public static void 类型的,方法必须接收一个字符串数组的参数等等。在看Java中的main()方法之前,先看一个最简单的Java应用程序HelloWorld,我将通过这个例子说明Java类中main()方法的奥秘,程序的代码如下:public clas...

2021-08-24 17:52:41 7800

原创 Flask

1.Flask启动三行 启动Flaskfrom flask import Flaskapp = Flask(_ name___)app. run ()六行启动Flask Hellofrom flask import Flaskapp = Flask(_ name__)@a...

2021-07-28 17:05:43 99

原创 2021-07-26笔记

●爬虫的js加密处理+js算法改写分析●涉及到的相关内容■js中常见的加密算法剖析。线性散列Md5算法。对称加密DES/AES算法。非对称加密算法RSA。base64伪加密。https证书秘钥加密●可以处理的爬虫问题■模拟登录中密码加密和其他请求参数加密处理■动态加载且加密数据的捕获...

2021-07-26 17:23:34 317

原创 基本算法Python实现

什么是计算机科学?●首先明确的一点就是计算机科学不仅仅是对计算机的研究,虽然计算机在科学发展的过程中发挥了重大的作用,但是它只是一个工具,一个没有灵魂的工具而已。所谓的计算机科学实际上是对问题、解决问题以及解决问题的过程中产生产生的解决方案的研究。例如给定-个问题,计算机科学家的目标是开发-个算法来处理该问题,最终得到该问题的解、或者最优解。所以说计算机科学也可以被认为是对算法的研究。因此我们也可以感受到,所谓的算法就是对问题进行处理且求解的一种实现思路或者思想。如何形象化的理解算法...

2021-07-26 10:07:39 170

原创 2021-07-22笔记

梨视频爬取思路-将每一个视频详情页的url进行解析-对视频详情页的ur1进行请求发送-在视频详情页的页面源码中进行全局搜索,发现没有找到video标签 - 视频标签是动态加载出来 - 动态加载的数据方式ajaxjs- 在页面源码中搜索.mp4,定位到了视频的地...

2021-07-23 16:46:32 68

原创 绕过反爬机制的方法

●站长素材高清图片下载■反爬机制:图片懒加载,广泛应用在了一些图片的网站中。只有当图片被显示在浏览器可视化范围之内才会将img的伪属性变成真正的属性。如果是requests发起的请求,requests请求是没有可视化范围,因此我们-一定要解析的是img伪属性的属性值(图片地址)●学过的反爬机制.■robots■UA伪装■动态加载数据的捕获...

2021-07-22 20:39:02 914

原创 xpath解析

-环境安装:- pip install 1xml-解析原理:html标签是以树状的形式进行展示- 1. 实例化一个etree的对象,且将待解析的页面源码数据加载到该对象中- 2.调用etree对象的xpath方法结合着不同的xpath表达式实现标签的定位和数据提取- 实例化etree对象 - etree .parse( 'filename' ) :将本地html文档加载到该对象中 - etree.HTML(page_t...

2021-07-22 15:37:18 277

原创 二叉树&分布式爬虫

python实现二叉树的数据结构:  . 二叉树的排序方式:    - 广度遍历(层次遍历)    - 深度遍历:      -前序(根左右):把根放到最前面      - 中序(左根右):把根放到中间      - 后序(左右根):把根放到最后class Node(): def __init__(self,item): self.item = item self.right = None self.left = Nonec.

2021-07-22 10:51:13 77

原创 在pycharm的Terminal终端 pip 或是Python显示: ‘xxx‘ 不是内部或外部的命令

参考链接:https://blog.csdn.net/wg5foc08/article/details/100183453 之前我在使用pycharm的Terminal终端执行 pip 或是 Python 命令时,遇到显示python 和 pip不是内部或外部的命令这样的错误。我也遇到过在网上找的教程说的很多但是具体的解决方法没有给出。今天终于找到这个问题的解决方法了。具体可以参考上文连接。首先:你得知道你的pycharm用的Python解...

2021-07-21 15:59:23 4270

原创 selenium

selenium: ●概念:基于浏览器自动化的模块●自动化:可以通过代码指定- 些列的行为动作,然后将其作用到浏览器中。●pip install selenium●selenium和爬虫之间的关联■1.便捷的捕获到任意形式动态加载的数据(可见即可得)■2.实现模拟登录●selenium的弊端:■效率低环境变量:...

2021-07-21 14:30:32 74

原创 Scrapy框架

- .什么是Scrapy?Scrapy是一个为 了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。二.安装Linux:pip3 install scrapyWindows:a. pip3...

2021-07-20 17:27:30 110

原创 Python中关于requests 的get和post方法

get方法可以不用传数据,post方法一般是要求传入date字典,或者是json代码。对于get方法来说一般只需要传URL,headers是可选参数,对于一般的网址来说,有反爬机制的网页需要。import requests requests.request(method, url, **kwargs) requests.get(url, params=None, **kwargs) requests.post(url, data=None, json=None, **kwargs).

2021-07-16 20:35:14 845

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除