BAE 上部署python-worker 爬虫遇到的问题

最新推荐文章于 2016-09-10 16:32:25 发布

VIP文章 steady_pace

最新推荐文章于 2016-09-10 16:32:25 发布

阅读量1.7k

点赞数

分类专栏： BAE 文章标签： BAE部署爬虫-出错

本文链接：https://blog.csdn.net/steady_pace/article/details/48319215

版权

BAE上部署了python-worker类型，想部署个爬虫在上面呢。可是偏偏就是不成功。代码在本地是可以正确的爬取页面，解析页面后，提取想要的内容的。

部署到BAE后，发现，页面可以抓取到，可是返回的html的长度不对：如：某个网页本来是98541，可是在BAE中抓取后，html长度就变成了28831

re,正则表达式抽取模块是对的，可以按照模式正常抽取。说明解析这部分，是正确的

数据库操作部分也是：可以连接，插入。
可是，当我把整个htmly页面插入到 longtext字段时，发现程序可以运行，但是该字段为空！是html整个页面太长了么？为什么插入的时候不报错，只是个warning???id自动增长

所以，我觉得，现在问题是不是归咎于，请求html页面的时候，返回的html页面压缩了？？？

闹心

核心代码如下

#-*- coding:utf-8 -*-
import time
import sys
import urllib2
import urllib
import re
import MySQLdb

#抓取网页
#形成url列表

def url_list():
    url_def_s={}
    url_def_s[0]="http://news.163.com/domestic/"

     url_def_s[

最低0.47元/天解锁文章

steady_pace

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
BAE 上部署python-worker 爬虫遇到的问题

BAE上部署了python-worker类型，想部署个爬虫在上面呢。可是偏偏就是不成功。代码在本地是可以正确的爬取页面，解析页面后，提取想要的内容的。部署到BAE后，发现，页面可以抓取到，可是返回的html的长度不对：如：某个网页本来是98541，可是在BAE中抓取后，html长度就变成了28831re,正则表达式抽取模块是对的，可以按照模式正常抽取。说明解析这部分，是正确的数据库操作部分也是：可以
复制链接

扫一扫