- 博客(8)
- 收藏
- 关注
转载 Python 多进程 一分钟下载二百张图片 是什么样子的体验
需要爬取国内某个网站,但是这个网站封ip,没办法,只能用代理了,然后构建自己的代理池,代理池维护了20条进程,所用的网络是20M带宽,实际的网速能达到2.5M,考虑到其他原因,网速未必能达到那么多。爬虫对网速的要求挺高的。首先把 URL 图片的链接 抓取下来 保存到数据库中去,然后使用多进程进行图片的抓取。经过测试 开40个进程,一分钟能采集200张图片,但是开60个进...
2017-09-30 17:03:00 175
转载 封ip对爬虫的影响
今天要聊的是封ip对爬虫的影响。我认为封ip能拒绝一部分网络请求,减轻服务器的压力,但是如果要是建立一个好的ip池,封对爬虫的影响不大。爬取国内一个拍卖公司的网站,刚开始用多进程下载,每分钟能爬取 1000个页面,后来不知怎么地,他封ip了,于是就去购买爬虫ip,建立自己的代理池,仅仅维护了二十个ip,也是用多进程去下载,下载速度是每分钟450个,因为这些ip的质量都...
2017-09-30 15:58:00 106
转载 多进程对 MySQL update的影响
今天要做数据清洗的时候,要更新一个数据库字段,考虑到用多进程去更新数据库,也许程序会跑得快一些,结果开了64个进程,结果是其他程序更新的时候,速度非常慢,最后发现的原因是,数据库中有64个SQL语句执行更新,这样就导致了对数据库进行增删改查的速度很慢。这是一个血的教训,所有以后的操作尽量少用多进程更新数据库。即使是想用多进程进行SQL update,可以少开几个进程,提升效果比较...
2017-09-30 14:46:00 168
转载 Python 爬虫 数据提取
一下子运行 七八十个 select 将会是什么样的体验呢?业务部门提供了一个需要,要求从爬虫数据中提取出88家的数据,并且也提供了一个excel表格,如下图:这个时候我们可以通过拍卖行,拍卖时间,拍卖会专场写SQL语句,单个SQL是这样写的。其中数据库表格的数据是540万,我们在建表的时候已经为item_auct_time ,session_name,au...
2017-09-30 14:27:00 195
转载 chromedriver 下载地址
重要的事情说三遍chromedriver 下载地址chromedriver 下载地址chromedriver 下载地址 http://chromedriver.storage.googleapis.com/index.html转载于:https://www.cnblogs.com/xuchunlin/p/7614796.html...
2017-09-30 14:10:00 53
转载 InsecureRequestWarning: Unverified HTTPS request is being made. Adding certificate verification is s...
InsecureRequestWarning: Unverified HTTPS request is being made. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.io/en/latest/advanced-usage.html#ssl-warnin...
2017-09-28 17:00:00 436
转载 requests 证书验证
今天在采集网页的时候 发现请求连接之后,没有返回结果代码如下: url = 'https://skinnerinc-res.cloudinary.com/images//v1501706307/1165786/pair-of-karl-springer-style-table-' response = requests.get(url=source_url, header...
2017-09-28 16:56:00 71
转载 mysql 怎么给一个表一次增加多个字段, mysql 添加 多个 字段
sql 语句: ALTER TABLE oversea_liveauctioneers_detail_info_2018 ADD `result` LONGTEXT, ADD `buyer_premium` LONGTEXT, ADD `item_imgurl` VARCHAR (255) DEFAULT NULL, ADD `item_desc` LONGTE...
2017-09-24 23:31:00 1060
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人