![](https://img-blog.csdnimg.cn/20190927151043371.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
数据抓取
文章平均质量分 86
有关数据抓取的内容
柳柳的博客
这个作者很懒,什么都没留下…
展开
-
搭建Crawlab爬虫管理平台
一,安装vm ,centos系统 (测试步骤,正式搭建可以跳过)1,在win10上,安装vm,centos8.5系统vm下载(试用版本):https://www.vmware.com/cn/products/workstation-pro/workstation-pro-evaluation.htmlcentos8.5系统:CentOS Mirrors List2,下载完成之后打开虚拟机3,点击创建新的虚拟机,然后按照提示,点击自定义安装4,具体调整参照:(59条消息) 在windows上安原创 2022-04-01 14:07:14 · 5437 阅读 · 0 评论 -
查看服务器硬件指标
一、查看内存占用1、freefree -m以MB为单位显示内存使用情况[root@localhost ~]# free -mtotal used free shared buff/cache availableMem: 11852 1250 8668 410 1934 9873Swap: 6015 0 6015原创 2022-03-09 17:42:42 · 1527 阅读 · 0 评论 -
【无标题】
内存、cpu、硬盘区别内存:就是存储程序以及数据的地方,比如当我们在使用WPS处理文稿时,当你在键盘上敲入字符时,它就被存入内存中,当你选择存盘时,内存中的数据才会被存入硬(磁)盘。断电后,内存中的信息全部丢失,存储介质是集成块的RAM类型,电子读写,存储容量较小。。cpu:是英语“Central Processing Unit/中央处理器”的缩写,CPU一般由逻辑运算单元、控制单元和存储单元组成。在逻辑运算和控制单元中包括一些寄存器,这些寄存器用于CPU在处理数据过程中数据的暂时保存, 其实我们在买C原创 2022-03-09 14:27:38 · 82 阅读 · 0 评论 -
线程数和并发量关系
并发数,线程数,吞吐量,每秒事务数(TPS)都是性能测试领域非常关键的数据和指标。那么他们之间究竟是怎样的一个对应关系和内在联系?测试时,我们经常容易将线程数等同于表述为并发数,这一表述正确吗?本文就将对性能领域的这些关键概念做一次探讨。文章可能会比较长,希望您保持耐心看完。走进开封菜,了解性能①老王开了家餐厅我们的主角老王,在M市投资新开业了一家,前来用餐的顾客络绎不绝:餐厅里有4种不同身份的人员:用户一次完整的用餐流程如下:顾客到店小二处付款点餐 => 小二将订单转发给后厨原创 2022-03-09 13:32:34 · 3016 阅读 · 0 评论 -
scrapy 调优
Scrapy 设置中 CONCURRENT_REQUESTS 及 DOWNLOAD_DELAY 等几个相关参数的作用准备工作实验验证只单独设置并发数CONCURRENT_REQUESTS或者CONCURRENT_REQUESTS_PER_DOMAIN同时设置CONCURRENT_REQUESTS和CONCURRENT_REQUESTS_PER_DOMAIN不开启并发,同时将spider中的请求队列改为只向一个地址发送请求,测试下载DELAY开启并发,请求队列变成对两个地址的请求,测试下载DELA原创 2022-03-09 11:22:47 · 2110 阅读 · 0 评论 -
爬虫清洗html
1 通过HTML标签提取(Java、Python)2 基于正则表达式的网页抽取3 机器学习方法(没看懂回头接着研究,,,,)1 通过HTML标签提取(Java、Python)浏览器在收到服务器返回的html源码后,会将网页解析为DOM树。HTML标签提取是基于DOM树的特征,被广泛用于网页抽取。目前最流行的网页抽取组件Jsoup(Java)和BeautifulSoup(Python)都是基于CSS选择器的。这里主要说一下我用过的Java、Python两种爬虫中对HTML标签提取器的使用。1.1原创 2022-02-24 17:28:41 · 1611 阅读 · 0 评论 -
Pyppeteer 使用笔记
Puppeteer 是 Google 基于 Node.js 开发的一个工具,有了它我们可以通过 JavaScript 来控制 Chrome 浏览器的一些操作,当然也可以用作网络爬虫上,其 API 极其完善,功能非常强大。 而 Pyppeteer 又是什么呢?它实际上是 Puppeteer 的 Python 版本的实现,但他不是 Google 开发的,是一位来自于日本的工程师依据 Puppeteer 的一些功能开发出来的非官方版本。基础用法import asynciofrom pyppeteer imp原创 2021-06-21 11:42:12 · 963 阅读 · 0 评论