自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

转载 爬虫过程中的 数据插入 问题及其解决方案

在爬虫的过程过,我们有时候往往是开多线程或者多进程或者是协程,有时间下载速度能达到2兆左右的数据,如果和这些数据插入到数据库中,使我们必须解决的问题: 目前去搞个数据库集群或者其他的对硬件的方案,可能是大公司无所谓,小公司未必能通过老板那一关。我想说的是通过代码去解决数据插入的问题,主要简单的介绍两种方案 第一种方案:批量插入:   因为爬取的数据量很大,我们的服务器一分钟能...

2018-03-29 09:47:00 283

转载 Python 爬虫实例(13) 下载 m3u8 格式视频

Python requests 下载 m3u8 格式 视频 最近爬取一个视频网站,遇到 m3u8 格式的视频需要下载。 抓包分析,视频文件是多个 ts 文件,什么是 ts文件,请去百度吧: 附图:抓包分析过程 直接把 ts文件请求下来,然后合并 ts文件,如果想把 ts文件转换 MP4 格式,请自行百度吧。 完整下载代码: #cod...

2018-03-29 09:47:00 964

转载 MySQL 两个数据库表中合并数据

两个数据库表中合并数据 如果有 t1 和 t2 两个数据库表格,它们两个对应的字段是相同的。如何将 t2 的数据插入到t1中去呢? insert into t1 select * from t2 INSERT INTO domestic_auction_artron_2018_detail_info_1_4_all SELECT *FROM domestic...

2018-03-29 09:03:00 4387

转载 HTTP 请求头 详解

转载:https://kb.cnblogs.com/page/92320/ HTTP(HyperTextTransferProtocol)即超文本传输协议,目前网页传输的的通用协议。HTTP协议采用了请求/响应模型,浏览器或其他客户端发出请求,服务器给与响应。就整个网络资源传输而言,包括message-header和message-body两部分。首先传递message-hea...

2018-03-29 09:02:00 102

转载 爬虫的本质是什么?

来源于:http://www.sohu.com/a/168371748_714863 很多搞爬虫的总爱吹嘘分布式爬虫,仿佛只有分布式才有逼格,不是分布式简单不配叫爬虫,这是一种很肤浅的思想。 分布式只是提高爬虫功能和效率的一个环节而已,它从来不是爬虫的本质东西。爬虫的本质是网络请求和数据处理,如何稳定地访问网页拿到数据,如何精准地提取出高质量的数据才是核心问题。 分布式爬虫只...

2018-03-29 09:02:00 615

转载 使用 MD5 加密 去重对插入的影响

现在有3000条数据,需要插入到数据库中去,使用的是对链接进行MD5加密, hashcode = md5(str(item_url))然后在数据库中设置 hashcode 为UNIQUE索引3000条数据全部插入完毕,耗时是32s不使用MD5加密,耗时30秒。结论:去重对时间影响不大 转载于:https://www.cnblogs.com/xuchunlin/p/8616604.ht...

2018-03-21 13:53:00 107

转载 Python 爬虫 使用正则去掉不想要的网页元素

在做爬虫的时候,我们总是不想去看到网页的注释,或者是网页的一些其他元素,有没有好的办法去掉他们呢? 例如:下面的问题 第一种情况<ahref="http://artso.artron.net/auction/search_auction.php?keyword=%E6%9E%97%E7%BB%8D%E5%91%A8"target="_blank">林绍周(明)<...

2018-03-20 15:20:00 750

转载 Python 图像下载解决图像损坏

在下载图片的过程中,经常会发现图片损坏,下面提供了两种解决方法: 方法一: if response.status_code == 200: print '==================================================' if not os.path.exists(dir_path): ...

2018-03-19 10:05:00 1097

转载 Python 爬虫 解决escape问题

爬取某个国外的网址,遇到的编码问题 ,在前段页面 返回的数据是 &#20126;&#27954;&#31169;&#20154;&#29645;&#34255 ;&#36067;&#65292;&#20196;&#20189;&#22909;&#20998;&#20139;...

2018-03-15 14:06:00 225

转载 python 爬虫 重复下载 二次请求

在写爬虫的时候,难免会遇到报错,比如 4XX ,5XX,有些可能是网络的原因,或者一些其他的原因,这个时候我们希望程序去做第二次下载, 有一种很low的解决方案,比如是用 try except    try: ------- except: try: -------- except: try: ...

2018-03-14 10:50:00 226

转载 TCP协议的三次握手四次挥手

IP协议、HTTP协议、TCP协议、TCP/IP 协议我们经常遇到,而且初学的时候容易弄混。那么他们之间有什么关系呢?重点内容 1、什么是TCP/IP 协议 TCP/IP不是一个协议,而是一个协议族的统称。里面包括IP协议、HTTP协议、TCP协议等。而三次握手四次挥手就发生在TCP协议中。 TCP/IP协议栈主要分为四层:应用层、传输层、网络层、数据链路层。每层都有相应的协议,具...

2018-03-06 12:54:00 77

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除