自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 通过Windows终端连接到CentOS

完成之后输入密码即可连接成功,登录之后输入ifconfig查看一下。然后在浏览器输入IP地址加端口进入Splash则成功。之后会出现下面内容,然后输入yes就行。root为用户名,@后面为IP地址。

2024-05-08 14:29:47 284

原创 VMware虚拟机新建

磁盘大小个人喜好就行,一般十到二十就差不多了,存储为一个文件删的时候方便。虚拟机位置不要放在c盘,以后这个会越用越大。点完成创建自己的密码,用户默认root。选在光盘映像文件,在安装的位置查找。网络配置选桥接,这个会单独分配ip。打开以太网就行,名字自己设置。选本地标准磁盘然后完成。点击下面的网络和主机名。配置后点完成选择中文。

2024-05-08 13:34:56 163

原创 Scrapy分布式爬虫

分布式爬虫首先要解决不同机器爬虫的调度器统一问题,这时候就用到了scrapy_redis,他可以让多个机器的调度器统一起来进行爬虫,主要用到redis的集合和队列进行处理引擎发送过来的url,start_urls也是要放到redis中,不能给爬虫经过引擎发给调度器,因为start_urls不被筛选过滤,会导致重复爬取。这种方式的优势在于可以大规模扩展爬取能力,提高爬取速度和效率,同时分散了单一IP的访问压力,降低了被目标网站阻止爬取的风险。然后配置你的上面替换掉start_urls的redis_key。

2024-05-08 09:40:20 410

原创 Scrapy增量爬虫

增量爬虫在每次爬取数据后,都会把爬取的最后位置或者时间点记录下来,然后下次执行爬虫任务时,就从这个位置或时间点开始,只爬取这之后发布或更新的数据。

2024-05-08 08:55:30 383

原创 Redis初步使用

redis-cli工具连接到位于192.168.1.1 IP地址、6379端口的Redis服务器。切换到解压缩的文件路径输入cmd打开命令窗口把redis放到Windows服务上面。在里面找到requirepass取消注释并把后面的英文字符换成自己的密码。然后解压缩配置文件redis.windows.conf。测试一下输入ping返回PONG代表全部完成。如果你不想要此服务了也可以卸载。

2024-05-02 10:37:05 28 1

原创 Scrapy的CrawlSpider使用

第二条规则是:提取匹配XPath表达式'//div[@class="page fn-clear"]/a/'的所有链接,然后自动跟踪这些链接并进行爬取。Scrapy默认提供了几种常见的模板类型,如 "basic","crawl" 和 "csvfeed" 等,其中 "crawl" 是一种适用于需跟踪链接的网页爬虫的模板。第一条规则是:提取匹配XPath表达式'//div[@class="tp-cards-tofu fn-clear"]/ul/li/a'的所有链接,并以。:这是你为爬虫选择的名字。

2024-04-30 22:32:43 225

原创 Scrapy链接提取器

使用Scrapy的LinkExtractor对象来找出页面上所有满足特定条件的链接。这个条件是通过一个XPath表达式来定义的。将响应中所有满足LinkExtractor条件的链接提取出来,并把这些链接存储在。对象,这个对象包含了要访问的链接以及对响应内容处理的回调函数。这个新请求会被添加到 Scrapy 的调度器中去。Scrapy 的工作流是基于这种生成的请求的。提取的链接,并为每一个链接创建一个新的。下面代码的作用是遍历先前通过。关键字在这里用于生成一个。

2024-04-30 21:42:00 166

原创 Scrapy中间件的使用

有结果可得通过中间件时首先执行spider_opened,然后在执行request和response,3、打开middlewares,找到DownloadMiddlewares(下载器中间件)这意味着当spider启动(即spider开始爬取数据)时,Scrapy 会发送一个。1、打开settings配置日志级别、协议规则、中间件的配置。,并且连接到了 Scrapy 的信号。在这个类方法中,创建了类的实例。本文以爬取百度标题为例介绍一下。

2024-04-25 21:00:00 468 1

原创 Scrapy数据存储为csv文件和保存到数据库

还是以双色球的案例写吧,首先打开settings设置日志级别,减少打印和拒绝协议,以及配置请求头,打开pipelinessettings配置好之后再进行items配置以上都配置好之后编写代码进行数据获取获取到的数据传送到数据管道进行保存。

2024-04-24 20:32:56 715 1

原创 Scrapy通过pipelines进行数据存储

参数是一个元组列表,每个元组包含一个布尔值(表明下载是否成功)和一个字典(如果成功则包含图片文件的详细信息,如果失败则包含异常信息)。这个方法在当前的实现中仅返回原始item,没有对下载结果进行处理。方法生成的请求对象,它包含了图片的URL。函数将URL的最后一部分作为文件名,并将图片下载到'img'文件夹下,最后生成如。: 此方法在每个item处理完毕(所有相关图片已下载)后调用,传入的。: 此方法用于生成下载图片的文件路径和文件名。字段,该字段应包含要下载的图片的URL。存储好之后去数据管道保存数据。

2024-04-23 21:16:57 301 1

原创 Scrapy初步使用二

本章主要介绍数据管道使用方法,创建好Scrapy项目后进行设置,加入下面代码减少过的的日志打印。打开items.py文件进行数据配置,这里的配置类似于数据库建表后的字段配置。配置好之后就可以接收数据了,下面是网页爬取的双色球数据。接收后可以在pipelines.py文件中打印出来。运行start.py文件就行了。

2024-04-22 21:42:38 433 1

原创 ffmpeg工具初步使用

首先配置环境变量,找到此电脑右键选择属性找到相关设置中的高级系统设置然后点击环境变量找到上方的Path变量双击进去添加下载好的ffmpeg文件的bin目录把弹出的窗口全部点确定然后按Windows+R输入cmd打开命令窗口输入ffmpeg显示此结果则安装成功。

2024-04-17 14:14:22 536

原创 selenium初级使用二

使用Selenium库中的ActionChains类来执行一个滚动到指定元素的操作,最好加上时间间隔,防止滑动过快数据未加载。使用Selenium网页自动化库Xpath来查找网页上的特定元素。获取特定元素中的属性元素。自动最大化浏览器操作。

2024-04-16 14:28:42 238

原创 selenium初级使用

这行代码获取当前浏览器中的网页HTML代码。参数分别是你之前定义的 Chrome 启动选项和 ChromeDriver 服务。简单来说,这行代码实质上就是开启了一个(无头模式的)Chrome浏览器。指定的ChromeDriver 的可执行文件路径,告诉 Selenium 从何处启动这个服务(也即 ChromeDriver)。添加了一个启动参数,这个参数可以禁用特定的 Blink 引擎功能,Blink 是 Chrome 使用的渲染引擎。特性可以帮助避免网站检测到你使用了自动化工具,从而让你的爬虫更难被识别。

2024-04-12 17:26:42 656

原创 初级使用Scrapy

创建爬虫模版:要先切换到刚刚创建的lufei路径下面,名称为lufeishuo,域名为b.faloo.com。然后修改设置settings.py,改成不就收协议False。在scrapy.cfg的同级目录下面创建start.py文件。模版创建好之后修改stat_url为自己要爬取的url。解开注释并添加自己的User_Agent伪装一下。创建Scrapy项目:测试项目为lufei小说。在start文件中写入启动程序。

2024-04-11 20:05:12 232

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除