python爬虫
Gpwner
这个作者很懒,什么都没留下…
展开
-
python< 解决OperationalError (2006, 'MySQL server has gone away')>
今天在将爬虫数据写入MySQL的时候,发现了一个很蛋疼的问题 在管道中写操作MySQL的逻辑的时候,有一部分数据能写入数据库,但是另外一部分数据写不进去,经过检查 发现并不是数据格式的问题。 OperationalError (2006, 'MySQL server has gone away')经过多方排查最终确定为由于爬虫的时候有些网页可能需要 很长时间才能打开,导致MySQL连接超时。解决的原创 2017-08-28 17:24:15 · 5851 阅读 · 0 评论 -
python爬虫<将scrapy的请求设置为同步>
scrapy的请求是并发进行的,但是我今天有一个需求是要顺序爬网站上的信息,爬的是搜狗热搜榜的电影、电视剧、动漫、综艺的热搜排行榜,每一个爬前三页。顺序爬取下来然后存到数据库中。 我的解决办法是在setting文件中将scrapy的并发数设置为1,当并发数为1的时候不就是同步了嘛# Configure maximum concurrent requests performed by Scrapy原创 2017-10-27 10:31:51 · 4856 阅读 · 1 评论 -
Ubuntu<使用crontab执行定时爬虫任务>
之前在windows下使用python 脚本调用爬虫程序,做成定时任务的时候,都挺顺利的,以下是代码video_command.py# -*- coding: utf-8 -*-# !/usr/bin/python2.7import osimport timedef run_spider(spider_name, folder_name): try: c原创 2017-11-07 16:54:23 · 677 阅读 · 0 评论 -
python爬虫<在Pipeline创建数据连接池批量写入MySQL>
以下是连接池的参数说明: def __init__(self, creator, mincached=0, maxcached=0, maxshared=0, maxconnections=0, blocking=False, maxusage=None, setsession=None, reset=True,原创 2017-10-30 13:44:49 · 2697 阅读 · 0 评论 -
python爬虫<解决URL被重定向无法抓取到数据问题>
在写爱奇艺爬虫的时候经常碰到URL被重定向的问题,导致无法请求到数据:以下是我的代码:# -*- coding: utf-8 -*-import scrapyheaders = { 'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}原创 2017-10-31 15:42:35 · 12105 阅读 · 0 评论