爬虫
文章平均质量分 78
KingLearnJava
这个作者很懒,什么都没留下…
展开
-
xpath提取多个标签下的text
我左青龙,右白虎,上朱雀,下玄武。老牛在当中,龙头在胸口。使用xpath的string(.)data = selector.xpath('//div[@id="test3"]')info = data.xpath('string(.)').extract()转载 2015-10-16 11:31:00 · 1991 阅读 · 0 评论 -
Python 3 爬虫之抓取当当网特价书名
网址:http://promo.dangdang.com/subject.php?pm_id=1501519&tag_id=&sort=price_asc&province_id=137&p=871要点:Chrome审查功能看到的源码与Python爬虫真实获取的源码有出入,写正则表达式时应该参照后者。该网页的最大页面数会变化,每次解析都要重新提取一次。没加入异常处理,也没使原创 2015-10-22 15:44:26 · 1648 阅读 · 0 评论 -
Python 3 爬虫之查询Github上哪些用户名没有被注册
想换个又短又有内涵还没什么用的ID,想了几个一直被注册。于是找来一份六千多个单词的文件,用爬虫挨个上Gibhub试。写的时候还不会多线程,单线程发一次请求就停几秒,否则很快被拒绝访问。还好不是封IP。抓完又觉得这样起名没意思。就当一次爬虫练习吧。#!/usr/bin/env python# -*- coding: utf-8 -*-# @Author: LostInNigh原创 2015-10-29 18:33:37 · 1629 阅读 · 0 评论 -
Python 3 爬虫之批量下载字帖图片
朋友想下载这62个网页中的字帖图片:http://www.yac8.com/news/11003.html一、要点1. Chrome 「审查元素」中看到的源代码与真实的源码不同。2. 图片网址附近源码: 获取源码的正则表达式:]*?src="(.+?\.jpg)"[^>]*?>建议使用Expresso,带有语义分析功能3. 网页编码是GB2312:原创 2015-10-19 11:58:10 · 1391 阅读 · 0 评论 -
Python 3 之 Chrom 截获的Headers转成dict格式
如题,直接复制Chrom截获的Headers如下:Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8Accept-Encoding:gzip, deflate, sdchAccept-Language:zh-CN,zh;q=0.8Connection:keep-aliveCo原创 2015-10-31 23:32:11 · 2834 阅读 · 1 评论