- 博客(22)
- 收藏
- 关注
转载 万能爬虫框架
对于爬虫大部分情况下都是请求头的构造很难,难就难在你必须分析js代码,看看header中有那些验证信息,这些验证信息是怎么生成的,然后再在Python中写出生成的方法,这样就能构造出正确的请求头,有了正确的请求头,就一定能请求成功,但是对于很多网站,这样的方式在过于复杂,不是一个好的解决方案,所幸的是还有一种方案是万能的,它可以爬取任何网页和任何操作,这个方案就是使用谷歌或者火狐提供的自动化测试工具,谷歌的是Chromedriver.exe,这个程序打开是一个命令框,并且它带了很多操作浏览器的命令,可以令你
2021-10-26 11:03:51 489
转载 win10+yolov3+python训练自己的模型
标题win10+yolov3+python训练自己的模型前提准备:1、配置好环境的 python、anaconda 或 pycharm2、labelimg 软件:下载方法: labelimg的下载与使用3、准备一些图片,创建训练需要的 VOC 文件(1) 官方的VOC2007下载链接:voc2007下载链接,可以从这里找需要的图片,或者一些有基础的朋友可以写爬虫去爬一些图片(2) voc2007百度网盘下载链接:链接:https://pan.baidu.com/s/18wqRTZDSz5NQ
2021-10-20 17:04:23 2108
转载 keras-yolov3目标检测详解——适合新手
keras-yolov3目标检测详解——适合新手一、准备工作前阵子用 matlab 做图像识别项目时发现了 yolov3 算法,觉得很有意思,但是无奈当时还没有基于matlab 的版本(听说现在有了),所以就用 python 运行,我的电脑里有 python_3.7、anaconda_3.6、pycharm。2、需要的文件:1、yolov3源代码:github_keras-yolo32、权重文件:官网_yolov3.weights (点击直接下载)或者 我的百度网盘文件 链接:https://p
2021-10-20 16:45:54 4432 4
转载 请求对象添加随机代理IP(2)
爬虫的目的就是为了模拟点击浏览器操作的行为,在反反爬策略中,最基础的就是更换User-Agent。User-Agent的作用是方便服务器识别,当前请求对象的身份信息。具体更换操作可以翻阅上一篇反反爬策略。无法从身份属性来识别是否是机器操作,网站服务器只能通过其他信息来辨别,区别机器和正常用户。识别IP访问频率,判断cookie信息,添加验证码操作等都是常见的网站反爬操作。今天,主要学习的就是突破网站根据IP访问频率的反反爬策略:随机更换请求对象的IP信息。Scrapy中,更换请求对象的IP信息非常的
2020-05-15 16:02:14 340
原创 python爬虫常见面试题
一,tcp和udp的区别?tcp(传输控制协议)是面向链接的协议,也就是说,在收发数据前,必须和对方建立可靠的链接。一个tcp链接必须经过‘3次对话’才能建立起来,其中的过程非常复杂,只简单描述下这3次对话的简单过程:主机A向主机B发出请求数据包:‘我想给你发数据,可以吗’,这是第一次对话;主机B向主机A发送同意连接和同步要求(同步就是两台主机一个在发送,一个在接收,协调工作)的数据包:‘可以,...
2019-09-23 11:13:36 219
原创 京东,淘宝,亚马逊 商品信息获取,以及商品的评价
‘’’京东商品名称价格及评价信息的获取‘’’1.########################################################import reimport timeimport csvimport requestsfrom bs4 import BeautifulSoupimport json# add headers, downloa...
2019-08-12 10:42:48 252
转载 常见的反爬虫机制以及对应思路
应对反爬的主要思路就是:尽可能的去模拟浏览器,浏览器在如何操作,代码中就如何去实现。1.通过User-Agent反爬爬虫发送请求时,请求头中默认没有User-Agent,或者提供非正常的UA。应对思路:在请求时添加UA具体应对: requests模块发送请求时在headers参数中UA键值对 selenium默认自带被控制浏览器的UA,也可以替换UA随机User-Age...
2019-08-06 16:04:34 750
原创 selenium不能使用phantomjs后,chrome无头浏览器和fixfox无头浏览器示例
标题Selenium+Headless Chrome示例from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsfrom selenium.webdriver.support.wait import WebDriverWaitimport timechrome_options...
2019-07-26 15:23:44 334
转载 Scrapy_Redis Settings.py设置文件
设置ua,来模拟浏览器请求#USER_AGENT = 'downloadmiddlerware (+http://www.yourdomain.com)'设置请求的最大并发数据(下载器) 默认是16#CONCURRENT_REQUESTS = 32设置请求的下载延时,默认为0#DOWNLOAD_DELAY = 3设置网站的最大并发请求数量,默认是8#CONCURRENT_REQ...
2019-07-16 14:34:01 259
转载 Scrapy基于scrapy_redis实现分布式爬虫部署
基于spider修改的分布式爬虫:准备工作1.安装scrapy_redis包,打开cmd工具,执行命令pip install scrapy_redis2.准备好一个没有BUG,没有报错的爬虫项目3.准备好redis主服务器还有跟程序相关的mysql数据库前提mysql数据库要打开允许远程连接,因为mysql安装后root用户默认只允许本地连接,详情请看此文章部署过程1.修改爬...
2019-07-04 15:24:53 160
转载 scrapy项目下运行多个爬虫
一般创建了scrapy文件夹后,可能需要写多个爬虫,如果想让它们同时运行而不是顺次运行的话,得怎么做?a、在spiders目录的同级目录下创建一个commands目录,并在该目录中创建一个crawlall.py,将scrapy源代码里的commands文件夹里的crawl.py源码复制过来,只修改run()方法即可!import osfrom scrapy.commands import ...
2019-07-04 10:33:08 1812
转载 scrapy中setting.py中每一项设置的含义
-- coding: utf-8 --Scrapy settings for GitHub projectFor simplicity, this file contains only settings considered important orcommonly used. You can find more settings consulting the documentation:...
2019-07-01 13:45:12 1122
原创 爬虫之存入数据库的(建表以存储)方面的优化
1:数据库建立联合索引(便于爬虫数据存入数据库的时候根据多字段进行去重,并且加快爬虫速度)ALTER TABLE t_gov_stats_year_public_management /*表名*/ ADD INDEX classify_name_date/*索引名*/ (classify_id,NAME,DATE1) /*需要联合建索引的字段*/ ;...
2019-06-24 14:45:29 587 2
转载 微信公众号爬虫
环境:Windows7 +Python3.6+Pycharm2017目标:抓取微信公众号全部历史文章(文章名+url)保存到本地csv分析:关于微信公众号的爬取,网上搜索了一下,主要有几种方法:一、搜狗微信公众平台 http://weixin.sogou.com/ ,有个问题就是这里抓的文章一个不能把公众号文章全部抓全,还有就是文章的地址好像不是永久地址。二、公众号平台文章调用接口 htt...
2019-05-07 09:56:34 6589 2
转载 字体反扒 ---汽车之家(文字)
上面讲的猫眼电影例子,是编码变化,但是字体形状不变,网上也有很多介绍的文章。而汽车之家的字体反爬,不仅是编码变化,而且是字体形状也有变化。就是说对象本身变化,不能再直接用比较对象的方法处理。网上搜也是基本没什么好的解决办法,有一种是用OCR识别,这个当然可以。下面介绍一种博主自己摸索的方法,简单试了下应该是ok的。先看问题,打开汽车之家论坛的一篇文章,https://club.autohome....
2019-05-06 11:25:52 1373 2
转载 字体反爬虫处理猫眼(数字)
环境:Windows7 +Python3.6+Pycharm2017目标:猫眼电影票房前言:字体反爬,也是一种常见的反爬技术,例如猫眼电影票房,汽车之家,天眼查等网站。这些网站采用了自定义的字体文件,在浏览器上正常显示,但是爬虫抓取下来的数据要么就是乱码,要么就是变成其他字符。采用自定义字体文件是CSS3的新特性,详情参考 CSS3字体一、猫眼电影打开猫眼电影票房 https://piao...
2019-04-28 09:21:02 1975 1
转载 什么是TCP,什么是UDP,有什么区别
1、TCP与UDP区别总结:1、TCP面向连接(如打电话要先拨号建立连接);UDP是无连接的,即发送数据之前不需要建立连接2、TCP提供可靠的服务。也就是说,通过TCP连接传送的数据,无差错,不丢失,不重复,且按序到达;UDP尽最大努力交付,即不保证可靠交付Tcp通过校验和,重传控制,序号标识,滑动窗口、确认应答实现可靠传输。如丢包时的重发控制,还可以对次序乱掉的分包进行顺序控制。3、UD...
2019-04-26 16:29:02 371
转载 字体反扒
转载自:https://cuiqingcai.com/6431.html今天的文章内容主要是关于字体反爬。目前已知的几个字体反爬的网站是猫眼,汽车之家,天眼查,起点中文网等等。以前也看过这方面的文章,今天跟个老哥在交流的时候,终于实操了一把,弄懂了字体反爬是个啥玩意。下面听我慢慢道来。本文用到的第三方库fontTools1、目标网站url = “https://su.58.com/...
2019-04-17 15:23:49 675
转载 为Django中的模型Model添加JSON类型字段
Django里面让Model用于JSON字段,添加一个JSONField自动类型如下:class JSONField(models.TextField):metaclass = models.SubfieldBasedescription = “Json”def to_python(self, value):v = models.TextField.to_python(self, val...
2019-04-11 17:02:49 3687
转载 django 框架模型之models常用的Field,这些Field的参数、及常见错误原因及处理方案
1. django 模型models 常用字段1、models.AutoField 自增列 = int(11)如果没有的话,默认会生成一个名称为 id 的列如果要显式的自定义一个自增列,必须设置primary_key=True。2、models.CharField 字符串字段 必须设置max_length参数3、models.BooleanField 布尔类型=tinyi...
2019-04-11 16:50:17 1324
原创 django 实现Web端访问
1.编辑demo/demo/setting.py 文件,做ALLOWED_HOSTS主机访问配置(若第三步已做可跳过此步骤)#此处添加自己的ip 地址ALLOWED_HOSTS=['192.168.2.240']2.编写项目主路由urls配置,配置对mytest应用路由的访问连接配置from django.conf.urls import include,urlfrom django...
2019-04-10 14:34:28 641 1
转载 scrapy 实现去重,存入redis(增量爬取)
转载自:https://www.jianshu.com/p/dd9432e18a31官方去重:scrapy官方文档的去重模块,只能实现对当前抓取数据的去重,下面是官方 APIfrom scrapy.exceptions import DropItemclass DuplicatesPipeline(object): def __init__(self): self....
2019-03-28 11:28:20 1058
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人