自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 收藏
  • 关注

原创 爬虫 与反爬虫 及其应对措施

服务器反爬的原因爬虫占总PV(PV是指页面的访问次数,每打开或刷新一次页面,就算做一个pv)比例较高,这样浪费钱(尤其是三月份爬虫)。三月份爬虫是个什么概念呢?每年的三月份我们会迎接一次爬虫高峰期,有大量的硕士在写论文的时候会选择爬取一些往网站,并进行舆情分析。因为五月份交论文,所以嘛,大家都是读过书的,你们懂的,前期各种DotA,LOL,到了三月份了,来不及了,赶紧抓数据,四月份分析一下,五月份交论文,就是这么个节奏。公司可免费查询的资源被批量抓走,丧失竞争力,这样少赚钱。数据可以在非登录状态.

2022-04-11 11:17:07 1730

原创 搭建Crawlab爬虫管理平台

一,安装vm ,centos系统 (测试步骤,正式搭建可以跳过)1,在win10上,安装vm,centos8.5系统vm下载(试用版本):https://www.vmware.com/cn/products/workstation-pro/workstation-pro-evaluation.htmlcentos8.5系统:CentOS Mirrors List2,下载完成之后打开虚拟机3,点击创建新的虚拟机,然后按照提示,点击自定义安装4,具体调整参照:(59条消息) 在windows上安

2022-04-01 14:07:14 5384

原创 爬虫思路 Appium入坑前必看

首先声明一点,在爬任何数据的时候,一定不要先考虑用Appium,个人建议开始爬虫前正确的做法应该是:1.去百度和谷歌搜下这个网站有没有人分享出你要爬数据的API2.看看电脑网页有没有你要的数据,调查下好不好拿,不管好不好拿,也不要急着就开爬3.看看有没有电脑能打开的手机网站,一般格式为http://m.xxx.com或http://mobile.xxxx.com,有的话可以用F12检查抓下包,看下抓取难易程度4.看看有没有手机App,抓下App的包,看能不能抓到接口5.抓下公众号和小程序的包,看

2022-03-29 15:02:45 771

原创 supervisor使用

1.介绍supervisor是一个进程管理工具。用途就是有一个进程需要每时每刻不断的跑,但是这个进程又有可能由于各种原因有可能中断。当进程中断的时候我希望能自动重新启动它,此时,我就需要使用到了supervisor。这个工具主要就两个命令:supervisord : supervisor的服务器端部分,启动supervisor就是运行这个命令supervisorctl:启动supervisor的命令行窗口2.安装推荐方法pip installpip install supervisor3

2022-03-28 14:17:22 1142

原创 查看服务器硬件指标

一、查看内存占用1、freefree -m以MB为单位显示内存使用情况[root@localhost ~]# free -mtotal used free shared buff/cache availableMem: 11852 1250 8668 410 1934 9873Swap: 6015 0 6015

2022-03-09 17:42:42 1502

原创 【无标题】

内存、cpu、硬盘区别内存:就是存储程序以及数据的地方,比如当我们在使用WPS处理文稿时,当你在键盘上敲入字符时,它就被存入内存中,当你选择存盘时,内存中的数据才会被存入硬(磁)盘。断电后,内存中的信息全部丢失,存储介质是集成块的RAM类型,电子读写,存储容量较小。。cpu:是英语“Central Processing Unit/中央处理器”的缩写,CPU一般由逻辑运算单元、控制单元和存储单元组成。在逻辑运算和控制单元中包括一些寄存器,这些寄存器用于CPU在处理数据过程中数据的暂时保存, 其实我们在买C

2022-03-09 14:27:38 80

原创 线程数和并发量关系

并发数,线程数,吞吐量,每秒事务数(TPS)都是性能测试领域非常关键的数据和指标。那么他们之间究竟是怎样的一个对应关系和内在联系?测试时,我们经常容易将线程数等同于表述为并发数,这一表述正确吗?本文就将对性能领域的这些关键概念做一次探讨。文章可能会比较长,希望您保持耐心看完。走进开封菜,了解性能①老王开了家餐厅我们的主角老王,在M市投资新开业了一家,前来用餐的顾客络绎不绝:餐厅里有4种不同身份的人员:用户一次完整的用餐流程如下:顾客到店小二处付款点餐 => 小二将订单转发给后厨

2022-03-09 13:32:34 2882

原创 scrapy 调优

Scrapy 设置中 CONCURRENT_REQUESTS 及 DOWNLOAD_DELAY 等几个相关参数的作用准备工作实验验证只单独设置并发数CONCURRENT_REQUESTS或者CONCURRENT_REQUESTS_PER_DOMAIN同时设置CONCURRENT_REQUESTS和CONCURRENT_REQUESTS_PER_DOMAIN不开启并发,同时将spider中的请求队列改为只向一个地址发送请求,测试下载DELAY开启并发,请求队列变成对两个地址的请求,测试下载DELA

2022-03-09 11:22:47 2027

原创 MySQL 数据库扩容方案

数据库秒级平滑扩容架构方案一、缘起(1)并发量大,流量大的互联网架构,一般来说,数据库上层都有一个服务层,服务层记录了“业务库名”与“数据库实例”的映射关系,通过数据库连接池向数据库路由sql语句以执行:单库服务层如上图:服务层配置用户库user对应的数据库实例物理位置为ip(其实是一个内网域名)。(2)随着数据量的增大,数据要进行水平切分,分库后将数据分布到不同的数据库实例(甚至物理机器)上,以达到降低数据量,增强性能的扩容目的:数据水平切分如上图:用户库user分布在两个实例上,ip0和i

2022-02-25 14:54:16 2662

原创 MongoDB 空间使用

MongoDBMongoDB 内存高问题MongoDB 磁盘IO高问题概述阿里云数据库MongoDB的空间使用率是一个非常重要的监控指标,如果实例的存储空间完全打满,将会直接导致实例不可用。一般来说,当一个MongoDB实例的存储空间使用比例达到80-85%以上时,就应及时进行处理,要么降低数据库实际占用空间的大小,要么对存储空间进行扩容,以避免空间打满的风险。然而,阿里云数据库MongoDB的空间使用情况分析并不简单,本文将由浅入深帮您查看,分析和优化云数据库MongoDB的空间使用。查看空间

2022-02-25 14:20:52 1314

原创 爬虫清洗html

1 通过HTML标签提取(Java、Python)2 基于正则表达式的网页抽取3 机器学习方法(没看懂回头接着研究,,,,)1 通过HTML标签提取(Java、Python)浏览器在收到服务器返回的html源码后,会将网页解析为DOM树。HTML标签提取是基于DOM树的特征,被广泛用于网页抽取。目前最流行的网页抽取组件Jsoup(Java)和BeautifulSoup(Python)都是基于CSS选择器的。这里主要说一下我用过的Java、Python两种爬虫中对HTML标签提取器的使用。1.1

2022-02-24 17:28:41 1588

原创 js爬虫反扒

3、js动态网页抓取方式(重点)许多时候爬虫取到的页面仅仅是一个静态的页面,即网页的源代码,就像在浏览器上的“查看网页源代码”一样。一些动态的东西如javascript脚本执行后所产生的信息是抓取不到的,下面两种方案,可用来python爬取js执行后输出的信息。① 用dryscrape库动态抓取页面js脚本是通过浏览器来执行并返回信息的,所以,抓取js执行后的页面,一个最直接的方式就是用python模拟浏览器的行为。WebKit 是一个开源的浏览器引擎,python提供了许多库可以调用这个引擎,d

2022-02-24 13:23:35 2451

原创 初识 Hbase 数据库

一、介绍HBaseApache HBase™ is the Hadoop database, a distributed, scalable, big data store.HBase is a type of “NoSQL” database.Apache HBase 是 Hadoop 数据库,一个分布式、可伸缩的大数据存储。HBase是依赖Hadoop的。为什么HBase能存储海量的数据?因为HBase是在HDFS的基础之上构建的,HDFS是分布式文件系统。二、为什么要用HBase截至到现在

2022-02-23 15:44:52 5501 4

原创 【无标题】

scrapy+django 结合,编写带接口爬虫网上的关于django-scrapy的介绍比较少,该博客只在本人查资料的过程中学习的,如果不对之处,希望指出改正;以后的博客可能不会再出关于django相关的点;人心太浮躁,个人深度不够,只学习了一些皮毛,后面博客只求精,不求多;希望能坚持下来。加油!学习点:实现效果django与scrapy的创建setting中对接的位置和代码段scrapy_djangoitem使用scrapy数据爬取保存部分数据库设计以及问题部分django配置

2022-02-18 14:00:02 89

原创 Django:runserver实现远程访问

Django自带的runserver实现远程访问最近在Ubuntu服务器上创建了一个Django项目,想实现远程访问:新创建一个名为my_site的Django项目,目录结构如下:项目结构…/my_site/├── db.sqlite3├── manage.py└── my_site├── init.py├── pycache│ ├── init.cpython-36.pyc│ ├── settings.cpython-36.pyc│ ├── urls.cpython-3

2021-11-29 13:41:48 1422

原创 django model建模 更改删除以及切换表 如果特殊字符,修改setting

当我们需要添加一个模型类或者修改模型类中的字段信息的时候,需要进行怎样的操作才能成功呢?没错,我们需要依次运行下面两个命令:#创建要修改的内容文件python manage.py makemigrations#执行修改python manage.py migrate通过上面这两个命令我们就可以将模型类的创建和修改生效到数据库中,那么你有没有想过当我们依次执行这两个命令的时候,Django都发生了什么呢?下面我将用一个例子来讲解模型类的创建和删除的过程,以及在这个过程中Django都进行了哪些操作。

2021-11-24 15:06:50 624

原创 redis 报错 Redis protected-mode 配置文件没有真正启动

(error) DENIED Redis is running in protected mode because protected mode is enabledRedis protected-mode 是3.2 之后加入的新特性,在Redis.conf的注释中,我们可以了解到,他的具体作用和启用条件注意:修改配置文件一定注意空格,每个词之间只能有一个空格,否则报错。血泪史链接redis 时只能通过本地localhost (127.0.0.1)这个来链接,而不能用网络ip(192.168…)这个链

2021-11-24 11:13:40 1801

原创 linux系统 虚拟环境迁移

Virtualenv方法一如果是有网环境:source env/bin/activate # 先激活本地虚拟环境pip freeze > requirements.txtpip install -r requirements.txt方法二source venv/bivn/activate # 先激活本地虚拟环境pip freeze > requirements.txt在开发环境先下载好离线包:pip download -d your_offline_packages -r ..

2021-11-18 15:45:14 930

原创 有关于selenium+chrome proxy添加代理的坑

selenium+chrome proxy添加代理的坑最近一直在搞selenium+chrome 爬取google引擎数据,该方法chromeoptions.add_argument(f’–proxy-server=23.19.99.26:8800’)一直代理不上,搞的很头疼,翻阅了源代码,最后终于成功,特此记录爬坑过程!直接上代码:proxy = '23.19.99.26:8800'desired_capabilities = webdriver.DesiredCapabilities.CHR

2021-11-18 10:45:13 2547 4

原创 centos系统下安装selenium+chromdriver

环境准备前言selenium在windows机器上运行,每次会启动界面,运行很不稳定。于是想到用chrome来了的headless无界面模式,确实方便了不少。为了提高自动化运行的效率和稳定性,于是把selenium自动化环境部署到linux服务器上,这样更方便。环境:centos 7.6python 3.6chrome 77.0.3865.90chromedriver 77.0.3865.40selenium 3.14安装最新版chrome方法一:yum在线安装yum install

2021-11-16 15:19:02 342

原创 gitlab使用教程详细

GitLab简介GitLab是类似于GitHub的仓库管理系统,和GitHub一样,它能够提交/拉取代码,不同的是,GitLab可以部署在自己服务器上,数据库等信息是自己掌握的,适合团队内部协作开发。可以理解为个人版本的GitHub。记录一下Git拉取 和提交文件到GitLab的命令。前提下载安装Git在GitLab上有账号更改Git Bash的起始位置:右键属性,改为自定义文件夹workspace,作为本地git仓库在GitLab上配置SSHKey。目的是使客户端和服务端建立信任,每次操作就

2021-11-16 12:11:35 8511

原创 crontab 配置定时任务执行python脚本 用虚拟环境

crontab是一个linux中的定时任务器,让crontab调度作业采用虚拟环境可如下配置source /mnt/py3/bin/activate;python /mnt/test/test.py >> /mnt/test/test.log 2>&1 &或者source /mnt/py3/bin/activate;cd /mnt/test;python test.py >> /mnt/test/tes

2021-11-15 14:03:20 1440

原创 CENTOS使用VIRTUALENV搭建独立的PYTHON环境-PYTHON虚拟环境

CentOS使用virtualenv搭建独立的Python环境-python虚拟环境virtualenv可以搭建虚拟且独立的python环境,可以使每个项目环境与其他项目独立开来,保持环境的干净,解决包冲突问题。一、安装python可-编译安装;可-yum安装二、安装virtualenvyum源安装:yum install python-virtualenvvirtualenv实际上是一个python包,所以我们可以用easy_install或者pip安装。easy_install安装方式:

2021-11-15 13:51:27 275

原创 No module named ‘dateutil‘

需要先安装numpy、pandaspip install numpypip install pandas12直接pip install dateutil不成功,需要:pip install python-dateutil

2021-11-15 13:50:48 1950

原创 Ubuntu系统中使用venv创建一个虚拟环境

本篇文章给大家分享的是有关怎么在Ubuntu系统中使用venv创建一个虚拟环境,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。1.虚拟环境跟随项目,为单个项目创建虚拟环境(python3.4以上自带直接使用 ,pip install virtualenv)1.建立项目目录:(找个目录)mkdir PythonProjectcd PythonProject2.创建虚拟环境env: python -m venv env3.激活虚拟环境:

2021-11-15 10:46:26 1808

原创 Caused by SSLError(SSLError(1, ‘[SSL: WRONG_VERSION_NUMBER] wrong version number (_ssl.c:1124)‘)

降级 : pip3 install urllib3==1.23

2021-11-12 13:22:43 8393 2

原创 python 爬取google总结

1.问题目前主流的搜索引擎,非google莫属,但其对于非法(流量异常、爬虫)请求的封锁也是异常严厉本人前段时间有个脚本用到了谷歌搜索,具体见python之由公司名推算出公司官网(余弦相似度)当时直接使用的是一个python开源项目但在使用过程中,单ip的情况下爬取速度可谓感人,稍不留神还会被封,所以对于获取谷歌搜索结果的爬虫有必要进行改进说一说爬取谷歌搜索结果的问题:1.正常打开谷歌搜索,然后审查元素想获取目标内容的时候,会发现是一大串js。2.访问过快就会出现流量异常2.如何解决对于第一

2021-11-11 12:04:57 5434

原创 pyppeteer: 解决OSError: Unable to remove Temporary User Data的报错问题

关于使用pyppeteer时报错解决OSError: Unable to remove Temporary User Data这个错误,我记得一周前,一直没有解决掉,有人说,不要设置–no-sandbox这个参数,但是并不能解决这个问题,一度奔溃,后来直接放弃了,今天看了pyppeteer的文档,想起来这个问题,突然发现这么简单的问题一周前竟然被难到了,好吧,原来我项目的临时数据目录是存在了c盘,但是当删除它的时候,应该是遇到了权限问题,没有权限没法删除啊,所以,如有遇到类似错误的朋友,自己在一个有权限删

2021-11-11 11:29:30 1055

原创 python爬虫br gzip default 压缩引起中文乱码

使用python3做爬虫的时候,一些网站为了防爬虫会在请求头设置一些检查机制,因此我们就需要添加请求头,伪装成浏览器正常访问。字段情况,详见下表:请求头字段 说明 响应头字段Accept 告知服务器发送何种媒体类型 Content-TypeAccept-Language 告知服务器发送何种语言 Content-LanguageAccept-Charset 告知服务器发送何种字符集 Content-TypeAccept-Encoding 告知服务器采用何种压缩方式 Content-Encoding

2021-11-09 16:33:19 1286

转载 django 接口开发

接口开发转载自【秦无殇的博客】:https://www.cnblogs.com/webDepOfQWS/p/10693152.html原文章贴在下面作为笔记,全程按照原文走下来,加上下面的各种错误的解决,顺便记录一下遇到的问题及解决方案:各版本如下:centos:7.2python:3.6.8(win10下是3.7,实测没问题)django:2.2pymysql:0.9.3先在win上进行的调试【记录1】:setting.py文件中ALLOWED_HOSTS = [’*’] # 允许任何I

2021-11-02 17:32:05 2141

原创 爬起steam数据,报错:ssl proxy 模块有问题

最近在新公司电脑上搭建python环境的时候,爬取steam社区数据,现在python更新到3.9版本了,然后下载下来之后,配好环境变量,然后安装requests插件,然后写一个简单的代码发送请求,结果发现居然报错了:import requestsres = requests.get(url=“https://blog.csdn.net/liboshi123/”, verify=False)运行上面的代码的时候,发现报了下面的错误:raise ValueError(“check_hostname r

2021-10-28 16:18:23 541

原创 亲测有用,轻松解决远程链接的“Gtk-WARNING **: cannot open display;”或“Cannot connect to display;”问题

远程连接服务器或者工作站的时候,通常不能打开一个GUI图形用户,而且在打开过程中会出现诸如:(gedit:46927): Gtk-WARNING **: cannot open display:或者:指令名:Cannot connect to display的提示。那么如何解决这个问题呢?把它分为两种链接方式:用windows下的cmd链接远程的linux,另一种是用本地的linux系统链接远程的linux(两种的远程机器均为linux系统,我感觉不是linux系统也没关系吧!)。假设两台机器的

2021-07-07 15:21:42 7822 1

原创 Pyppeteer 使用笔记

Puppeteer 是 Google 基于 Node.js 开发的一个工具,有了它我们可以通过 JavaScript 来控制 Chrome 浏览器的一些操作,当然也可以用作网络爬虫上,其 API 极其完善,功能非常强大。 而 Pyppeteer 又是什么呢?它实际上是 Puppeteer 的 Python 版本的实现,但他不是 Google 开发的,是一位来自于日本的工程师依据 Puppeteer 的一些功能开发出来的非官方版本。基础用法import asynciofrom pyppeteer imp

2021-06-21 11:42:12 947

原创 post请求中的 payload 特殊使用办法

python爬虫处理POST request payload请求最近在采集某网站的时候发现是通过post请求来请求数据的,使用的数据格式是request payload,这个和之前看到过的常见的POST请求不同(Form data),这个时候在使用Form data的请求方式来提交时,就无法请求到真实数据了。Http请求中Form data和request payload的区别:其实这两种都是ajax中常见的两种传参数的形式Form dataget请求的时候我们通常直接在url中以key=value

2021-05-07 13:21:56 3324

原创 MySQL mysqldump 导入/导出 结构&数据&存储过程&函数&事件&触发器

(为了防止原链接丢失,引用文章并做保存)一、使用mysqldump导出/导入sql数据文件二、使用infile/outfile导入/导出txt/csv数据文件———————————————-库操作———————————————-1.①导出一个库结构mysqldump -d dbname -u root -p > xxx.sql②导出多个库结构mysqldump -d -B dbname1 dbname2 -u root -p > xxx.sql2.①导出一个库数据mysqldu

2021-04-06 16:29:52 734

原创 mysql5.7到mysql8.0数据迁移Access denied; you need (at least one of) the SUPER privilege(s) or system_user

1, mysqldump -hhost -P23306 -uuser --default-character-set=utf8mb4 database >qianyi.sql2, mysql -hhost -P3306 -uuser -ppassword database --set-gtid-purged=OFF<qianyi.sql3, 问题1迁移报错:Access denied; you need (at least one of) the SUPER privilege(s)

2021-04-02 14:51:42 3531 1

原创 MySQL 8.0统计信息不准确的原因

这篇文章主要介绍了MySQL 8.0统计信息不准确的原因,帮助大家更好的理解和学习MySQL8.0的相关内容,感兴趣的朋友可以了解下前言不管是Oracle还是MySQL,新版本推出的新特性,一方面给产品带来功能、性能、用户体验等方面的提升,另一方面也可能会带来一些问题,如代码bug、客户使用方法不正确引发问题等等。案例分享MySQL 5.7下的场景(1)首先,创建两张表,并插入数据123456789101112131415161718192021222

2021-04-02 13:40:44 471

原创 常用邮箱POP3 STMP服务器与端口号设置:

阅读目录一、常用邮箱POP3 STMP服务器与端口号设置:回到顶部一、常用邮箱POP3 STMP服务器与端口号设置:【网易 163、126免费邮箱目前不直接开放smtp、pop3服务。有需要的用户可通过购买随身邮或邮箱伴侣及加入会员中心获得。从2006年11月16日起新注册用户,将无法使用POP客户端功能,之前注册用户不受影响。】复制代码task:PushTagsScheduledService.pushTagMessage网易163邮箱POP3:pop.163.comSMTP:smtp

2021-03-05 12:20:03 5026

原创 最新版(2021年1月)知乎x-zse-86 2.0版本加密破解分析 爬虫 破解反爬思路

https://blog.csdn.net/qq_27859693/article/details/113202582?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.control&dist_request_id=1072784a-a776-46c4-ad3a-3ae679e1b2a2&depth_1-utm_source=distribute.pc_relevant.no

2021-02-22 15:02:25 385

原创 EXPLAIN使用详细解析

EXPLAIN简介使用EXPLAIN关键字可以模拟优化器执行SQL查询语句,从而知道MySQL是如何处理你的SQL语句的。分析你的查询语句或是表结构的性能瓶颈。➤ 通过EXPLAIN,我们可以分析出以下结果:表的读取顺序数据读取操作的操作类型哪些索引可以使用哪些索引被实际使用表之间的引用每张表有多少行被优化器查询➤ 使用方式如下:EXPLAIN +SQL语句EXPLAIN SELECT * FROM t11执行计划包含的信息这里写图片描述执行计划各字段含义2.1 id.

2021-01-06 15:53:21 439

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除