『 24 格』-CSDN博客

转载万能爬虫框架

对于爬虫大部分情况下都是请求头的构造很难，难就难在你必须分析js代码，看看header中有那些验证信息，这些验证信息是怎么生成的，然后再在Python中写出生成的方法，这样就能构造出正确的请求头，有了正确的请求头，就一定能请求成功，但是对于很多网站，这样的方式在过于复杂，不是一个好的解决方案，所幸的是还有一种方案是万能的，它可以爬取任何网页和任何操作，这个方案就是使用谷歌或者火狐提供的自动化测试工具，谷歌的是Chromedriver.exe，这个程序打开是一个命令框，并且它带了很多操作浏览器的命令，可以令你

2021-10-26 11:03:51 518

转载 win10+yolov3+python训练自己的模型

标题win10+yolov3+python训练自己的模型前提准备：1、配置好环境的 python、anaconda 或 pycharm2、labelimg 软件：下载方法： labelimg的下载与使用3、准备一些图片，创建训练需要的 VOC 文件（1）官方的VOC2007下载链接：voc2007下载链接，可以从这里找需要的图片，或者一些有基础的朋友可以写爬虫去爬一些图片（2） voc2007百度网盘下载链接：链接：https://pan.baidu.com/s/18wqRTZDSz5NQ

2021-10-20 17:04:23 2128

转载 keras-yolov3目标检测详解——适合新手

keras-yolov3目标检测详解——适合新手一、准备工作前阵子用 matlab 做图像识别项目时发现了 yolov3 算法，觉得很有意思，但是无奈当时还没有基于matlab 的版本（听说现在有了），所以就用 python 运行，我的电脑里有 python_3.7、anaconda_3.6、pycharm。2、需要的文件：1、yolov3源代码：github_keras-yolo32、权重文件：官网_yolov3.weights （点击直接下载）或者我的百度网盘文件链接：https://p

2021-10-20 16:45:54 4503 4

转载请求对象添加随机代理IP（2）

爬虫的目的就是为了模拟点击浏览器操作的行为，在反反爬策略中，最基础的就是更换User-Agent。User-Agent的作用是方便服务器识别，当前请求对象的身份信息。具体更换操作可以翻阅上一篇反反爬策略。无法从身份属性来识别是否是机器操作，网站服务器只能通过其他信息来辨别，区别机器和正常用户。识别IP访问频率，判断cookie信息，添加验证码操作等都是常见的网站反爬操作。今天，主要学习的就是突破网站根据IP访问频率的反反爬策略:随机更换请求对象的IP信息。Scrapy中，更换请求对象的IP信息非常的

2020-05-15 16:02:14 359

原创 python爬虫常见面试题

一，tcp和udp的区别？tcp（传输控制协议）是面向链接的协议，也就是说，在收发数据前，必须和对方建立可靠的链接。一个tcp链接必须经过‘3次对话’才能建立起来，其中的过程非常复杂，只简单描述下这3次对话的简单过程：主机A向主机B发出请求数据包：‘我想给你发数据，可以吗’，这是第一次对话；主机B向主机A发送同意连接和同步要求（同步就是两台主机一个在发送，一个在接收，协调工作）的数据包：‘可以，...

2019-09-23 11:13:36 229

原创京东，淘宝，亚马逊商品信息获取，以及商品的评价

‘’’京东商品名称价格及评价信息的获取‘’’1.########################################################import reimport timeimport csvimport requestsfrom bs4 import BeautifulSoupimport json# add headers, downloa...

2019-08-12 10:42:48 262

转载常见的反爬虫机制以及对应思路

应对反爬的主要思路就是：尽可能的去模拟浏览器，浏览器在如何操作，代码中就如何去实现。1.通过User-Agent反爬爬虫发送请求时，请求头中默认没有User-Agent，或者提供非正常的UA。应对思路：在请求时添加UA具体应对： requests模块发送请求时在headers参数中UA键值对 selenium默认自带被控制浏览器的UA，也可以替换UA随机User-Age...

2019-08-06 16:04:34 763

原创 selenium不能使用phantomjs后，chrome无头浏览器和fixfox无头浏览器示例

标题Selenium+Headless Chrome示例from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsfrom selenium.webdriver.support.wait import WebDriverWaitimport timechrome_options...

2019-07-26 15:23:44 346

转载 Scrapy_Redis Settings.py设置文件

设置ua,来模拟浏览器请求#USER_AGENT = 'downloadmiddlerware (+http://www.yourdomain.com)'设置请求的最大并发数据(下载器)　默认是16#CONCURRENT_REQUESTS = 32设置请求的下载延时,默认为0#DOWNLOAD_DELAY = 3设置网站的最大并发请求数量,默认是8#CONCURRENT_REQ...

2019-07-16 14:34:01 271

转载 Scrapy基于scrapy_redis实现分布式爬虫部署

基于spider修改的分布式爬虫：准备工作1.安装scrapy_redis包,打开cmd工具,执行命令pip install scrapy_redis2.准备好一个没有BUG,没有报错的爬虫项目3.准备好redis主服务器还有跟程序相关的mysql数据库前提mysql数据库要打开允许远程连接,因为mysql安装后root用户默认只允许本地连接,详情请看此文章部署过程1.修改爬...

2019-07-04 15:24:53 171

转载 scrapy项目下运行多个爬虫

一般创建了scrapy文件夹后，可能需要写多个爬虫，如果想让它们同时运行而不是顺次运行的话，得怎么做？a、在spiders目录的同级目录下创建一个commands目录，并在该目录中创建一个crawlall.py，将scrapy源代码里的commands文件夹里的crawl.py源码复制过来，只修改run()方法即可！import osfrom scrapy.commands import ...

2019-07-04 10:33:08 1833

转载 scrapy中setting.py中每一项设置的含义

-- coding: utf-8 --Scrapy settings for GitHub projectFor simplicity, this file contains only settings considered important orcommonly used. You can find more settings consulting the documentation:...

2019-07-01 13:45:12 1139

原创爬虫之存入数据库的（建表以存储）方面的优化

1：数据库建立联合索引（便于爬虫数据存入数据库的时候根据多字段进行去重，并且加快爬虫速度）ALTER TABLE t_gov_stats_year_public_management /*表名*/ ADD INDEX classify_name_date/*索引名*/ (classify_id,NAME,DATE1) /*需要联合建索引的字段*/ ;...

2019-06-24 14:45:29 597 2

转载微信公众号爬虫

环境：Windows7 +Python3.6+Pycharm2017目标：抓取微信公众号全部历史文章（文章名+url）保存到本地csv分析：关于微信公众号的爬取，网上搜索了一下，主要有几种方法：一、搜狗微信公众平台 http://weixin.sogou.com/ ，有个问题就是这里抓的文章一个不能把公众号文章全部抓全，还有就是文章的地址好像不是永久地址。二、公众号平台文章调用接口 htt...

2019-05-07 09:56:34 6646 2

转载字体反扒 ---汽车之家（文字）

上面讲的猫眼电影例子，是编码变化，但是字体形状不变，网上也有很多介绍的文章。而汽车之家的字体反爬，不仅是编码变化，而且是字体形状也有变化。就是说对象本身变化，不能再直接用比较对象的方法处理。网上搜也是基本没什么好的解决办法，有一种是用OCR识别，这个当然可以。下面介绍一种博主自己摸索的方法，简单试了下应该是ok的。先看问题，打开汽车之家论坛的一篇文章，https://club.autohome....

2019-05-06 11:25:52 1394 2

转载字体反爬虫处理猫眼（数字）

环境：Windows7 +Python3.6+Pycharm2017目标：猫眼电影票房前言：字体反爬，也是一种常见的反爬技术，例如猫眼电影票房，汽车之家，天眼查等网站。这些网站采用了自定义的字体文件，在浏览器上正常显示，但是爬虫抓取下来的数据要么就是乱码，要么就是变成其他字符。采用自定义字体文件是CSS3的新特性，详情参考 CSS3字体一、猫眼电影打开猫眼电影票房 https://piao...

2019-04-28 09:21:02 2010 1

转载什么是TCP，什么是UDP，有什么区别

1、TCP与UDP区别总结：1、TCP面向连接（如打电话要先拨号建立连接）;UDP是无连接的，即发送数据之前不需要建立连接2、TCP提供可靠的服务。也就是说，通过TCP连接传送的数据，无差错，不丢失，不重复，且按序到达;UDP尽最大努力交付，即不保证可靠交付Tcp通过校验和，重传控制，序号标识，滑动窗口、确认应答实现可靠传输。如丢包时的重发控制，还可以对次序乱掉的分包进行顺序控制。3、UD...

2019-04-26 16:29:02 397

转载字体反扒

转载自：https://cuiqingcai.com/6431.html今天的文章内容主要是关于字体反爬。目前已知的几个字体反爬的网站是猫眼，汽车之家，天眼查，起点中文网等等。以前也看过这方面的文章，今天跟个老哥在交流的时候，终于实操了一把，弄懂了字体反爬是个啥玩意。下面听我慢慢道来。本文用到的第三方库fontTools1、目标网站url = “https://su.58.com/...

2019-04-17 15:23:49 699

转载为Django中的模型Model添加JSON类型字段

Django里面让Model用于JSON字段，添加一个JSONField自动类型如下：class JSONField(models.TextField):metaclass = models.SubfieldBasedescription = “Json”def to_python(self, value):v = models.TextField.to_python(self, val...

2019-04-11 17:02:49 3720

转载 django 框架模型之models常用的Field，这些Field的参数、及常见错误原因及处理方案

1. django 模型models 常用字段1、models.AutoField　　自增列 = int(11)如果没有的话，默认会生成一个名称为 id 的列如果要显式的自定义一个自增列，必须设置primary_key=True。2、models.CharField　　字符串字段　　必须设置max_length参数3、models.BooleanField　　布尔类型=tinyi...

2019-04-11 16:50:17 1341

原创 django 实现Web端访问

1.编辑demo/demo/setting.py 文件，做ALLOWED_HOSTS主机访问配置（若第三步已做可跳过此步骤）#此处添加自己的ip 地址ALLOWED_HOSTS=['192.168.2.240']2.编写项目主路由urls配置，配置对mytest应用路由的访问连接配置from django.conf.urls import include,urlfrom django...

2019-04-10 14:34:28 661 1

转载 scrapy 实现去重，存入redis（增量爬取）

转载自：https://www.jianshu.com/p/dd9432e18a31官方去重：scrapy官方文档的去重模块，只能实现对当前抓取数据的去重，下面是官方 APIfrom scrapy.exceptions import DropItemclass DuplicatesPipeline(object): def __init__(self): self....

2019-03-28 11:28:20 1068

weixin_43145520的博客