Python第一次采集数据小记

#coding:utf-8含义:该文件中的字符串都以utf8编码

首先用到了两个第三方库

1、requests采集数据,获取页面内容

2、BeautifulSoup主要用于搜索分析页面内容不会正则的孩子的福音

 

#创建 requests对象
response  = requests.get("http://duodian.hneph.com/m_index.aspx")

#获取页面内容
soup = BeautifulSoup(response.content)

#循环查找内容
for k in soup.find('ul', {'id': 'index_myshoucang'}).find_all('a'):
	print k['href']	print k['href']
#写入文件
f = open(u"F:/多点学习网站采集/目录一览表.txt", "w+"):
	f.write(s +"\n")
f.close()


以上是核心代码

 

对于python写入中文报错的问题,可以转码解决。如下:

 

s = w.encode("gb2312")

 

获取html某个属性值

 

# coding: utf-8

from bs4 import BeautifulSoup

html = u"""<a class='uncheck2 a-hide' jxbh='02080027151001' xf='2'>隐藏</a>
</td>
<td><a href="javascript:void(0)" onclick="courseDet('02080027151001')">电子音乐合成技术与应用</a></td>
<a class='uncheck2 a-hide' jxbh='02080006151001' xf='2'>隐藏</a>
</td>
<td><a href="javascript:void(0)" onclick="courseDet('02080006151001')">电子设计与维修</a></td>"""

bs_obj = BeautifulSoup(html)

a_list = bs_obj.findAll('a',attrs={'jxbh':True})

for a in a_list:

    print a.attrs['jxbh']

 

 

下面是一个捕获异常的例子,获取网页时可以用这种方法跳过出错的页面或其他异常页面

 

#!/usr/bin/python
# -*- coding: UTF-8 -*-

try:
    fh = open("testfile", "w")
    fh.write("这是一个测试文件,用于测试异常!!")
except IOError:
    print "Error: 没有找到文件或读取文件失败"
else:
    print "内容写入文件成功"
    fh.close()

 

如果遇到请求错误403可以尝试添加请求头

 

 

#构造请求头
headers = { "Accept":"text/html,application/xhtml+xml,application/xml;",
            "Accept-Encoding":"gzip",
            "Accept-Language":"zh-CN,zh;q=0.8",
            "Referer":"http://www.example.com/",
            "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.90 Safari/537.36"
            }
response  = requests.get("url",headers=headers)

 


HTML文本转纯TEXT文本

从网页中得到文本是常见的工作,BeautifulSoup提供了get_text()方法来达到目的。

 

获取标签属性

 

for k in soup.find_all('a'):
    print(k)
    print(k['class'])#查a标签的class属性
    print(k['id'])#查a标签的id值
    print(k['href'])#查a标签的href值
    print(k.string)#查a标签的string
    #tag.get('calss'),也可以达到这个效果

 


 

 

 

 

 

 

 


 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能-肥鹅

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值