#---------------------------------import---------------------------------------
#coding:utf-8
import urllib2;
from BeautifulSoup import BeautifulSoup;
#------------------------------------------------------------------------------
def main():
#抓
userMainUrl = "http://tieba.baidu.com/home/main?id=38b94c4ed8add8bcccabd7d31b22&fr=userbar"; #修改抓取的链接地址
req = urllib2.Request(userMainUrl);
resp = urllib2.urlopen(req);
respHtml = resp.read();
print "respHtml=",respHtml; #此处输出所有抓取到的HTML源码
#取
songtasteHtmlEncoding = "GBK";#修改编码<span><span class="attribute-name">charset的格式</span></span>
soup = BeautifulSoup(respHtml, fromEncoding=songtasteHtmlEncoding);
foundClassH1user = soup.find(attrs={"target":"_blank"});#修改抓取内容
print "foundClassH1user=%s",foundClassH1user;
if(fo
Python 实现网络爬虫 抓取静态网页【代码】
这篇博客介绍了如何使用Python进行网络爬虫,重点展示了如何抓取页面上的1类和2类标签。通过示例代码`soup.findAll('a')`演示了抓取一类标签,同时提供了抓取具有特定属性如`target="_blank"`和`class="h1user"`的2类标签的方法。
摘要由CSDN通过智能技术生成