抠肚脐眼-2022年网络我的网络爬虫学习心得

本文记录了作者本学期的Python爬虫学习心得,涵盖了Urllib、Numpy、BeautifulSoup、Scrapy等关键模块的介绍和使用,以及Scrapyd、Gerapy等工具的部署。通过实验,作者实践了Jupyter爬虫、Scrapy爬虫的构建以及Gerapy的使用,加深了对爬虫技术的理解。
摘要由CSDN通过智能技术生成

目录


本学期爬虫心得

基于本学期的课程,接触到了有关爬虫的知识,首先便需要了解到什么是爬虫,爬虫,即网络爬虫,网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。经过这一学习的学习培养了一些爬虫的思维,虽然还是有好多次搁那浑水摸鱼呜呜,但还是能有培养到一些相关技术,提高了自主学习的能力,在出现问题的时候能知道如何去解决,知道在哪里可以找到解决办法,果然还是得靠人类共同的智慧。非常感谢老师这一学期的教导,可以说是非常的受益匪浅了。通过几次实验,让我能更加深刻的接触与了解有关代码的运用和练习。


一、有关pip模块

1、Urllib

urllib是用来处理网络请求的Python标准库,它是 Python 内置的 HTTP 请求库,也就是说我们不需要额外安装即可使用。

它包含四个模块:

  • 第一个模块 request,它是最基本的 HTTP 请求模块,我们可以用它来模拟发送请求,就像在浏览器里输入网址然后敲击回车一样,只需要给库方法传入 URL 还有额外的参数,就可以模拟实现这个过程了。
  • 第二个 error 模块,即异常处理模块,如果出现请求错误,我们可以捕获这些异常,然后进行重试或其他操作,保证程序不会意外终止。
  • 第三个 parse 模块是一个url解析模块,提供了许多 URL 处理方法,比如拆分、解析、合并等的方法。
  • 第四个模块是 robotparser,是一个robots.txt解析模块。主要是用来识别网站的 robots.txt 文件,然后判断哪些网站可以爬,哪些网站不可以爬的,其实用的比较少。

2、Numpy

提供了许多高级的数值编程工具,专为进行严格的数字处理而产生。安装代码如下:

pip install + 下载到的numpy的文件名

出现错误代码时可能pip的版本不对,需要更新pip版本,更新代码如下:

pip install -U pip

3、Parse

用来解析即把源程序翻译成为字节码,一般是指把某种格式的文本(字符串)转换成某种数据结构的过程。安装代码如下:

pip install parse

安装完成之后,可以在 Python 命令行下测试。

 import parse

4、Pandas

pandas 是基于Numpy的一种工具,该工具是为解决数据分析任务而创建的。安装代码如下:
pip install pandas

5、BeautifulSoup

Beautiful Soup提供一些简单的python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过析解文档为用户提供需要抓取的数据。BeautifulSoup自动将输入文档转化为Unicode编码,输出文档转化为utf-8编码,你不需要考虑编码方式,BeautifulSoup已经成为和lxml、html6lib一样出色的Python解释器。为用户灵活地提供不同的解析策略或强劲的速度。

6、Scrapy

Scrapy是一个健壮的爬虫框架,可以从网站中提取需要的数据。是一个快速、简单、并且可扩展的方法。Scrapy不是数据库,它并不会储存数据,也不会索引数据,它只能从一堆网页中抽取数据,但是我们却可以将抽取的数据插入到数据库中。安装代码如下:

pip install scrapy (Windows)

pip3 install scrapy(Mac)

 7、Scrapyd

Scrapyd是一个用来部署和运行Scrapy项目的应用。安装代码如下:

pip install scrapyd

8、Requests 

Requests库是Python的第三方库,是目前公认的爬取网页最好的库,特点有简单,代码简洁,甚至一行代码就能爬取到网页。安装时需要保证Python已经下载到电脑上,安装代码如下:

pip install requests

安装完成后可以启动Requests库测试。

先打开PyCharm,创建一个新的py文件,然后输入:

import requests #导入Requests库
#get获取网页
r = requests.get('https://www.啥网站都行.com')
# 检查连接状态,如果是200就是正常

9、PyMongo 

pymongo是Python中用来操作MongoDB的一个库。

所以要利用Python操作MongoDB,有以下两个步骤&

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值