期末网络爬虫一课一得

最新推荐文章于 2024-10-16 11:04:34 发布

db_qmc_2060

最新推荐文章于 2024-10-16 11:04:34 发布

阅读量1.4k

点赞数 15

文章标签：爬虫

本文链接：https://blog.csdn.net/Wosmdoubuhuilll/article/details/135260325

版权

1.关于网络爬虫

网络爬虫（也称为网络蜘蛛）是一种在互联网上搜索和索引内容的机器人。从本质上讲，网络爬虫负责理解网页上的内容，以便在进行查询时检索它。

网络爬虫通过发现 URL 以及查看和分类网页来工作。在此过程中，他们会找到指向其他网页的超链接，并将它们添加到接下来要抓取的页面列表中。网络爬虫很聪明，可以确定每个网页的重要性。

搜索引擎的网络爬虫很可能不会爬取整个互联网。相反，它将根据包括多少其他页面链接到该页面、页面浏览量甚至品牌权威等因素来决定每个网页的重要性。因此，网络爬虫将确定要爬取的页面、爬取它们的顺序以及它们应该多久爬取一次更新。

2.抓取静态网页数据

1.关于urllib库

　urllib是Python自带的一个用于爬虫的库，其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在Python3中的为urllib.request和urllib.parse，在Python2中是urllib和urllib2。

2.urllib爬取网页

1.爬取百度首页面的所有数据值

实例如下：

#!/usr/bin/env python 
# -*- coding:utf-8 -*-
#导包
import urllib.request
import urllib.parse
if __name__ == "__main__":
    #指定爬取的网页url
    url = 'http://www.baidu.com/'
    #通过urlopen函数向指定的url发起请求，返回响应对象
    reponse = urllib.request.urlopen(url=url)
    #通过调用响应对象中的read函数，返回响应回客户端的数据值（爬取到的数据）
    data = reponse.read()#返回的数据为byte类型，并非字符串
    print(data)#打印显示爬取到的数据值。

2.将爬取到百度新闻首页的数据值写入文件进行存储

#!/usr/bin/env python 
# -*- coding:utf-8 -*-
import urllib.request
import urllib.parse
if __name__ == "__main__":
    url = 'http://news.baidu.com/'
    reponse = urllib.request.urlopen(url=url)
    #decode()作用是将响应中字节（byte）类型的数据值转成字符串类型
    data = reponse.read().decode()
    #使用IO操作将data表示的数据值以'w'权限的方式写入到news.html文件中
    with open('./news.html','w') as fp:
        fp.write(data)
    print('写入文件完毕')

3.urllib实现数据传输

url的特性：url必须为ASCII编码的数据值。所以我们在爬虫代码中编写url时，如果url中存在非ASCII编码的数据值，则必须对其进行ASCII编码后，该url方可被使用。

实例如下：爬取使用百度根据指定词条搜索到的页面数据（例如爬取词条为‘周杰伦’的页面数据）

#!/usr/bin/env python 
# -*- coding:utf-8 -*-
import urllib.request
import urllib.parse

if __name__ == "__main__":
    #原始url中存在非ASCII编码的值，则该url无法被使用。
    #url = 'http://www.baidu.com/s?ie=utf-8&kw=周杰伦'
    #处理url中存在的非ASCII数据值
    url = 'http://www.baidu.com/s?'
    #将带有非ASCII的数据封装到字典中，url中非ASCII的数据往往都是'?'后面键值形式的请求参数
    param = {
        'ie':'utf-8',
        'wd':'周杰伦'
    }
    #使用parse子模块中的urlencode函数将封装好的字典中存在的非ASCII的数值进行ASCII编码
    param = urllib.parse.urlencode(param)
    #将编码后的数据和url进行整合拼接成一个完整可用的url
    url = url + param
    print(url)
    response = urllib.request.urlopen(url=url)
    data = response.read()
    with open('./周杰伦.html','wb') as fp:
        fp.write(data)
    print('写入文件完毕')

3.解析网页数据

在数据分析领域，数据抓取是非常重要的一环。而Python作为一门强大的编程语言，也有着很好的数据抓取和解析能力。

一、Python抓取网页数据的基本方法

Python抓取网页数据的基本方法是使用requests库发起HTTP请求，并使用BeautifulSoup库解析HTML。具体步骤如下：

1.导入requests库和BeautifulSoup库

pythonimport requestsfrom bs4 import BeautifulSoup

2.发起HTTP请求

pythonurl =''response = requests.get(url)

3.解析HTML

pythonsoup = BeautifulSoup(response.text,'html.parser')

二、Python抓取网页数据的进阶技巧

除了基本方法外，还有一些进阶技巧可以提升Python抓取网页数据的效率和准确性。

1.使用代理IP

在进行大量网页数据抓取时，可能会遭遇反爬虫机制。此时可以使用代理IP来规避这个问题。

pythonproxies ={  'http':':8080',  'https':':8080'}response = requests.get(url, proxies=proxies)

2.使用多线程

使用多线程可以提高Python抓取网页数据的效率，使程序能够同时处理多个请求。

pythonimport threadingdef request(url):    response = requests.get(url)    soup = BeautifulSoup(response.text,'html.parser')    #处理解析后的数据threads =[]for url in urls:    t = threading.Thread(target=request, args=(url,))    threads.append(t)for t in threads:    t.start()for t in threads:    t.join()

3.使用异步IO

使用异步IO可以进一步提高Python抓取网页数据的效率。Python 3.5及以上版本支持asyncio库，可以实现异步IO。

pythonimport asyncioasync def request(url):    async with aiohttp.ClientSession() as session:        async with session.get(url) as response:            html = await response.text()            soup = BeautifulSoup(html,'html.parser')            #处理解析后的数据loop = asyncio.get_event_loop()tasks =[request(url) for url in urls]loop.run_until_complete(asyncio.gather(*tasks))

三、Python解析HTML的基本方法

Python解析HTML的基本方法是使用BeautifulSoup库。可以使用select方法根据CSS选择器来定位HTML元素，也可以使用find和find_all方法来定位HTML元素。