python爬虫学习
文章平均质量分 77
python爬虫学习时遇到的问题
fj_changing
这个作者很懒,什么都没留下…
展开
-
python redis增删改查
python redis增删改查原创 2023-02-01 09:39:03 · 1214 阅读 · 0 评论 -
MongoDB数据去重
有三种方法,针对不同的情况。方法一数据库是新的,里面没有任何数据。这时的去重,是指在插入数据时,判断本次要插入的数据,是否在数据库中已存在。若存在,可以忽略本次的插入操作,或覆盖数据;若不存在,则插入。原理MongoDB的_id字段的值是唯一的(类似MySQL的主键),若不手动赋值,则会在插入数据库过程中自动生成。MongoDB插入数据时会自动根据_id的值判断是否是重复数据,即数据库中是否有某条数据的_id和本次要插入的数据的_id相同,若发现重复数据,则本次插入操作会报错Duplic原创 2022-05-17 10:53:21 · 7539 阅读 · 0 评论 -
Crawlab运行selenium爬虫
上篇文章学习了Crawlab运行scrapy爬虫和单文件爬虫,这次学习Crawlab运行selenium爬虫,我的例子是单文件的。环境准备Crawlab虽然自带了一些爬虫用的第三方库,但是不全,总有一些库是你的代码需要但它没自带的,如selenium就没自带。查看已安装的库有两种方法可以看你的Crawlab是否安装了selenium(截图时我已安装),如果你没装,则下面的图中你看不到selenium。方法一图1方法二图2图3安装需要的库文档中有两处提到安装依赖,文档.原创 2022-05-05 18:12:50 · 2273 阅读 · 4 评论 -
Crawlab的使用
上篇文章安装了Crawlab,现在开始使用。0.6.0beta目前有问题,建议稳定版出了再用,所以本文用截止发布文章时的最新稳定版0.5.1。本文最核心的内容在文档-SDK-Python和文档-爬虫集成中,即配置scrapy爬虫和单个py文件爬虫所需的设置。先说一下,如果在Crawlab中运行爬虫时提示没有库,看文档。scrapy爬虫文档将上图压缩后的zip文件上传,上传时开启是否为Scrapy。另外,上传时有提示要从根目录下开始压缩爬虫文件,文档中也有说。上传后,从文件原创 2022-04-25 22:17:07 · 2567 阅读 · 0 评论 -
Crawlab安装
0.6.0beta目前有问题,建议稳定版出了再用,稳定版出之前先用0.5.x。Crawlab0.6.0-beta.20211224按照0.6.0文档快速开始中的步骤(需提前安装Docker):docker pull crawlabteam/crawlab #docker pull mongo 后面设置了使用自己的MongoDB,不用Crawlab的,所以这一步不用装 pip install docker-compose 在作为主节点的服务器创建配置文件并命名为docker-compose.原创 2022-04-24 12:35:00 · 2881 阅读 · 3 评论 -
绕过网站的检测DevTools
在做爬虫时,要打开DevTools分析网页结构和请求,但有的网站禁止鼠标右键或者禁止F12,不让你打开DevTools,还有的检测到你强行打开DevTools时就自动将网页关闭。下面是解决方法。一.打开DevTools有些网站禁止鼠标右键,要想打开DevTools,有以下几种方法:按F12,有的网站只禁止鼠标右键,没禁止键盘F12 从浏览器右上角三个点里打开DevTools 装油猴脚本,有专门的脚本来绕过这个限制,鼠标右键就可以使用了;浏览器插件也行 浏览器里提前禁止js,如图1和图2,图原创 2022-03-29 14:52:03 · 8655 阅读 · 1 评论 -
创建以数字开头的scrapy项目
scrapy startproject xxx命令中,项目名只能含有数字、字母、下划线,且以字母开头,不能含有减号。创建以数字开头的scrapy项目,方面看的时候排序,知道先写的哪个,后写的哪个。可以先创建一个符合命名规则的项目,再改为scrapy_数字_xxx(更新,可以直接用这个名字创建项目,它符合规则,创建后不用再替换各文件中的旧名字),再将scrapy.cfg和settings.py中的旧名字替换为新名字。如果改名之前你用pycharm打开过项目,则还需修改.idea文件夹中的内容,也是将旧原创 2022-03-25 10:49:20 · 1142 阅读 · 0 评论 -
docker报错WARNING: Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None)) afte
完整报错WARNING: Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None)) after connection broken by 'NewConnectionError('<pip._vendor.urllib3.connection.HTTPSConnection object at 0x7f1fddb10d00>: Failed to establish a new connection: [E原创 2022-02-15 00:13:30 · 6186 阅读 · 5 评论 -
删除B站动态或视频的评论(仅限自己的)
上篇文章爬取了B站数据,目的是删除自己的评论,具体在前言有说。现在得到了评论,该怎么删除(仅限自己的评论)?原创 2021-12-09 16:46:07 · 7769 阅读 · 8 评论 -
python爬虫之浏览器User-Agent大全
爬虫时需要伪造浏览器User-Agent,可以手动准备,也可以用第三方库自动生成。一.手动准备这是我从真实的浏览器上复制的User-Agent,即每个版本都是真实存在过的。但不保证我的版本号是连续的,如实际发布了版本号1、2、3,可我从1升级的时候已经发布了3,自动升级时就跳过了2,也就无法记录到版本号2。不过这不影响爬虫,只是如果你想搜集绝对全面的User-Agent的话,即不遗漏每个版本,那我这个手动记录的可能不全。版本号后面注释中的时间,只是发布当前版本时记录的,不一定代表"这是本月的第一原创 2021-10-24 10:24:00 · 21394 阅读 · 7 评论 -
分析网易云歌曲评论分析加密的JS并且解密,并使用Python抓取歌曲评论
转载自分析网易云歌曲评论分析加密的JS并且解密,并使用Python抓取歌曲评论 - 『编程语言区』 - 吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn原文无法显示图片,后来原作者又单独上传了图片的压缩包,我仅将图片插入原文,未做其他修改。原作者的另一篇类似的文章对某网站进行JS逆向AES实战 - 『编程语言区』 - 吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn一、首先我们打开网站,找到真实的URL然后我们打开开转载 2021-07-03 16:10:51 · 783 阅读 · 2 评论