Python第一次采集数据小记

最新推荐文章于 2023-03-29 20:17:42 发布

人工智能-肥鹅

最新推荐文章于 2023-03-29 20:17:42 发布

阅读量479

点赞数

分类专栏： Python 文章标签： python 采集爬数据

本文链接：https://blog.csdn.net/kfyzjd2008/article/details/73501784

版权

Python 专栏收录该内容

38 篇文章 1 订阅

订阅专栏

#coding:utf-8含义：该文件中的字符串都以utf8编码

首先用到了两个第三方库

1、requests采集数据，获取页面内容

2、BeautifulSoup主要用于搜索分析页面内容不会正则的孩子的福音

#创建 requests对象
response  = requests.get("http://duodian.hneph.com/m_index.aspx")

#获取页面内容
soup = BeautifulSoup(response.content)

#循环查找内容
for k in soup.find('ul', {'id': 'index_myshoucang'}).find_all('a'):
	print k['href']	print k['href']

#写入文件
f = open(u"F:/多点学习网站采集/目录一览表.txt", "w+"):
	f.write(s +"\n")
f.close()

以上是核心代码

对于python写入中文报错的问题，可以转码解决。如下：

s = w.encode("gb2312")

获取html某个属性值

# coding: utf-8

from bs4 import BeautifulSoup

html = u"""<a class='uncheck2 a-hide' jxbh='02080027151001' xf='2'>隐藏</a>
</td>
<td><a href="javascript:void(0)" onclick="courseDet('02080027151001')">电子音乐合成技术与应用</a></td>
<a class='uncheck2 a-hide' jxbh='02080006151001' xf='2'>隐藏</a>
</td>
<td><a href="javascript:void(0)" onclick="courseDet('02080006151001')">电子设计与维修</a></td>"""

bs_obj = BeautifulSoup(html)

a_list = bs_obj.findAll('a',attrs={'jxbh':True})

for a in a_list:

    print a.attrs['jxbh']

下面是一个捕获异常的例子，获取网页时可以用这种方法跳过出错的页面或其他异常页面

#!/usr/bin/python
# -*- coding: UTF-8 -*-

try:
    fh = open("testfile", "w")
    fh.write("这是一个测试文件，用于测试异常!!")
except IOError:
    print "Error: 没有找到文件或读取文件失败"
else:
    print "内容写入文件成功"
    fh.close()

如果遇到请求错误403可以尝试添加请求头

#构造请求头
headers = { "Accept":"text/html,application/xhtml+xml,application/xml;",
            "Accept-Encoding":"gzip",
            "Accept-Language":"zh-CN,zh;q=0.8",
            "Referer":"http://www.example.com/",
            "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.90 Safari/537.36"
            }

response  = requests.get("url",headers=headers)

HTML文本转纯TEXT文本

从网页中得到文本是常见的工作，BeautifulSoup提供了get_text()方法来达到目的。

获取标签属性

for k in soup.find_all('a'):
    print(k)
    print(k['class'])#查a标签的class属性
    print(k['id'])#查a标签的id值
    print(k['href'])#查a标签的href值
    print(k.string)#查a标签的string
    #tag.get('calss')，也可以达到这个效果