![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
feifly329
这个作者很懒,什么都没留下…
展开
-
scrapy 爬网站 显示 Filtered offsite request to 错误.
爬取zol 网站图片,无法抓取. 在 setting.py 文件中 设置 日志 记录等级 LOG_LEVEL= 'DEBUG' LOG_FILE ='log.txt' 查看日志 发现报 2015-11-07 14:43:43+0800 [meizitu] DEBUG: Filtered offsite request to 'bbs.zol.com.cn': 这条日志记录有点奇原创 2015-11-07 14:52:45 · 11477 阅读 · 1 评论 -
Python 标准库 urllib2 的使用细节
转自道可道 Python 标准库中有很多实用的工具类,但是在具体使用时,标准库文档上对使用细节描述的并不清楚,比如 urllib2 这个 HTTP 客户端库。这里总结了一些 urllib2 的使用细节。 Proxy 的设置Timeout 设置在 HTTP Request 中加入特定的 HeaderRedirectCookie使用 HTTP 的 PUT 和 DELETE 方法得到 H转载 2015-10-30 09:10:33 · 480 阅读 · 0 评论 -
使用httplib 获取豆瓣验证码,遇到重定向问题
使用httplib 获取豆瓣验证码,遇到重定向问题, response.status= 302,直接忽略, response.read() 系统自动处理。 >>> import httplib, urllib >>> params = urllib.urlencode({'@number': 12524, '@type': 'issue', '@action': 'show'}) >>> head原创 2016-03-11 00:01:25 · 856 阅读 · 0 评论 -
Scrapy提取多个标签的text
对于要提取嵌套标签所有内容的情况, 使用string或//text(), 注意两者区别 >>> from scrapy import Selector >>> >>> doc = "<p id='test'>hello<b>world!</b></p>&qu转载 2019-01-08 14:56:55 · 551 阅读 · 0 评论 -
scrapy extract() 中文乱码乱码
xpath方法extract()返回的都是unicode字符串, 要注意对其进行的操作, 以及适时转化为字符串形式(通常情况下函数会自动帮助你转换, 如果可以转换的话), 尤其是在一起使用正则表达式的时候会产生命名规则正确却匹配不到的情况....原创 2019-01-09 08:49:13 · 881 阅读 · 0 评论