![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python爬虫
文章平均质量分 95
阿尔法羊
def __init__() self.属性='懒'
展开
-
自学Python爬虫js逆向(三)网站主要反爬手段梳理
简单说,爬虫获取数据的过程就是爬虫工作者和网站之间的一场攻防战,网站希望真实的用户来访问,不希望爬虫来访问,所以对爬虫设置了重重障碍,而所用的手段,主要就是利用JS进行处理,那么JS逆向就是突破网站在JS中设置的重重障碍,拿到想要的数据的过程。 知己知彼百战不殆,我们只有了解网站在反爬方面采用的是哪些手段,才能有针对性地想办法逆向突破。下面我们就从压缩、混淆、加密/解密 三个方面来梳理一下目前大部分网站的主要反爬手段。原创 2024-05-26 20:54:53 · 1603 阅读 · 0 评论 -
自学Python爬虫js逆向(一)准备好一些工具
常见的Python调用JS代码的库有这些:PyV8 Js2Py PyExecJs PyminiRacer Selenium Pyppeteer原创 2024-04-18 22:48:11 · 1607 阅读 · 0 评论 -
自学Python爬虫js逆向(二)chrome浏览器开发者工具的使用
Google Chrome浏览器的开发者工具是前端开发者的利器,它不仅提供了丰富的功能用于开发、调试和优化网页,还以其用户友好的接口而受到广泛欢迎。原创 2024-04-28 17:10:06 · 1062 阅读 · 0 评论 -
Python爬虫自学笔记(五)Scrapy框架
Python有很多好用的框架,在爬虫领域,最重要的就是Scrapy框架了。1、安装与启动安装(命令行)pip3 install scrapy创建scrapy项目(命令行进到要建立scrapy项目的目录下):scrapy startproject 项目名 创建爬虫(命令行):scrapy genspider 爬虫名 要爬取的网站地址 # 可以创建多个爬虫启动爬虫:命令行启动scrapy crawl 爬虫名字scrapy crawl 爬虫名字 --nol原创 2021-09-25 02:57:13 · 2549 阅读 · 0 评论 -
Python爬虫自学笔记(三)动态网页爬取
现在很多网站用的是动态网页加载技术,这时候用前面的request库和BS4库就不能解决问题了,需要用新的办法。打开网页,按F12或者右键弹出菜单里选择“检查”,右侧会打开开发者工具。这里有一排菜单,最左边的是Element,显示的是网页的源代码,如果在这里能直接找到所需要爬取的内容,就说明这是静态页面,可以用 request库和BeautifulSoup4库的工具爬取所需内容。如果这里找不到所需内容,那么就是动态页面。这时候往右面看Network菜单。Network的功能是:记录在当前页面上原创 2021-09-13 00:04:26 · 13605 阅读 · 1 评论 -
Python爬虫自学笔记(二)静态网页爬取
Beautiful Soup 是 python 的一个库,最主要的功能是从网页抓取数据。Beautiful Soup 提供一些简单的、python 式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。 Beautiful Soup 自动将输入文档转换为 Unicode 编码,输出文档转换为 utf-8 编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup 就不原创 2021-09-09 12:56:55 · 3544 阅读 · 1 评论 -
Python爬虫自学笔记(一)爬虫基础知识
浏览器工作原理原创 2021-08-06 17:29:41 · 611 阅读 · 2 评论