#coding:utf-8含义:该文件中的字符串都以utf8编码
首先用到了两个第三方库
1、requests采集数据,获取页面内容
2、BeautifulSoup主要用于搜索分析页面内容不会正则的孩子的福音
#创建 requests对象
response = requests.get("http://duodian.hneph.com/m_index.aspx")
#获取页面内容
soup = BeautifulSoup(response.content)
#循环查找内容
for k in soup.find('ul', {'id': 'index_myshoucang'}).find_all('a'):
print k['href']
print k['href']
#写入文件
f = open(u"F:/多点学习网站采集/目录一览表.txt", "w+"):
f.write(s +"\n")
f.close()
以上是核心代码
对于python写入中文报错的问题,可以转码解决。如下:
s = w.encode("gb2312")
获取html某个属性值
# coding: utf-8
from bs4 import BeautifulSoup
html = u"""<a class='uncheck2 a-hide' jxbh='02080027151001' xf='2'>隐藏</a>
</td>
<td><a href="javascript:void(0)" onclick="courseDet('02080027151001')">电子音乐合成技术与应用</a></td>
<a class='uncheck2 a-hide' jxbh='02080006151001' xf='2'>隐藏</a>
</td>
<td><a href="javascript:void(0)" onclick="courseDet('02080006151001')">电子设计与维修</a></td>"""
bs_obj = BeautifulSoup(html)
a_list = bs_obj.findAll('a',attrs={'jxbh':True})
for a in a_list:
print a.attrs['jxbh']
下面是一个捕获异常的例子,获取网页时可以用这种方法跳过出错的页面或其他异常页面
#!/usr/bin/python
# -*- coding: UTF-8 -*-
try:
fh = open("testfile", "w")
fh.write("这是一个测试文件,用于测试异常!!")
except IOError:
print "Error: 没有找到文件或读取文件失败"
else:
print "内容写入文件成功"
fh.close()
如果遇到请求错误403可以尝试添加请求头
#构造请求头
headers = { "Accept":"text/html,application/xhtml+xml,application/xml;",
"Accept-Encoding":"gzip",
"Accept-Language":"zh-CN,zh;q=0.8",
"Referer":"http://www.example.com/",
"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.90 Safari/537.36"
}
response = requests.get("url",headers=headers)
HTML文本转纯TEXT文本
从网页中得到文本是常见的工作,BeautifulSoup提供了get_text()方法来达到目的。
获取标签属性
for k in soup.find_all('a'):
print(k)
print(k['class'])#查a标签的class属性
print(k['id'])#查a标签的id值
print(k['href'])#查a标签的href值
print(k.string)#查a标签的string
#tag.get('calss'),也可以达到这个效果