爬虫
文章平均质量分 60
前端小菜鸟
这个作者很懒,什么都没留下…
展开
-
自制爬虫
# -*- coding: utf-8 -*- import string, urllib2 def go(url,begin_ad,end_ad): for i in range(begin_ad,end_ad+1):#range用() name=str(i)+'.html' m=urllib2.urlopen(url+str(i)).read() fi=open(name,'w+原创 2014-08-28 11:18:51 · 682 阅读 · 0 评论 -
编辑文章 - 博客频道 - CSDN.NET
# -*- coding: utf-8 -*- #有这个输入中文才不会乱码 import string, urllib2 #定义百度函数 def baidu_tieba(url,begin_page,end_page): for i in range(begin_page, end_page+1): sName = string.z转载 2014-08-27 17:00:15 · 558 阅读 · 0 评论 -
百度贴吧小爬虫
import string, urllib2 #定义百度函数 def baidu_tieba(url,begin_page,end_page): for i in range(begin_page, end_page+1): sName = string.zfill(i,5) + '.html'#自动填充成六位的文件名转载 2014-08-27 16:37:46 · 1139 阅读 · 0 评论 -
在网站上爬取实习岗位
package zhihu_scrapy; import java.io.*; import java.net.*; import java.util.regex.*; /*实现爬取只爬取的所有岗位中,只保存前端的岗位*/ public class Intern_test { public static String open(String url){ BufferedReader in =原创 2015-02-26 14:40:36 · 645 阅读 · 0 评论