原博文
2013-06-28 13:30 −
那天在新浪微博上看到北北出的题目,由于最近也在做类似的爬虫研究,所以就有了这个实验。 后来在QQ上和北北说了下,要求是啥都抓,就抓乌云的。。。 然后就开始了。。 第一个版本如下,后续不断改进直到满足需求: import urllib2; from sgmllib import SGMLParser...
相关推荐
2013-06-28 14:17 −
改进了一下,去掉哪些没用的。 留下的都是些有用的。接着要拔下来,然后放到TXT。。 #coding=utf-8 import urllib2 import re from sgmllib import SGMLParser; class CatCh(SGMLParser): def rese...
2018-01-28 23:55 −
爬取网页异步js渲染的数据,个人想到两种思路: 1、模拟请求得到返回的json数据,解析后爬取需求数据。 2、模拟浏览器加载完成后再正则匹配获取页面需求数据。 下面是第一种方法练习代码,后续学习中。。。 1 # !/usr/bin/env python 2 # -*- codin...
2016-08-10 17:32 −
Python小爬虫——贴吧图片的爬取 在对Python有了一定的基础学习后,进行贴吧图片抓取小程序的编写。 目标: 首先肯定要实现图片抓取这个基本功能 然后实现对用户所给的链接进行抓取 最后要有一定的交互,程序...
13