手把手从0开始学会Python爬虫，从大一初学者视角，带你实现爬虫攥写

最新推荐文章于 2025-03-17 11:57:23 发布

代码且脱发

最新推荐文章于 2025-03-17 11:57:23 发布

阅读量765

点赞数 4

文章标签： python 爬虫数据挖掘

本文链接：https://blog.csdn.net/CNX2003/article/details/121565419

版权

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
一、Python爬虫是什么？
二、使用步骤
总结
- 文中资源来自中国大学Mooc

前言

兴趣是最好的导师，有很多人在学习编程的时候被前期枯燥的语法劝退
这篇博客就将带领大家从初学者的视角学习Python 爬虫发现编程的魅力。
在这里插入图片描述

一、Python爬虫是什么？

一段自动抓取互联网信息的程序，从互联网上抓取对于我们有价值的信息
这里给出几个实用的案例：
（1）搜索引擎，例如百度、谷歌等搜索公司利用爬虫收揽网站，将目前信息时代数据变现成商业产品；
（2）舆情分析，例如百度、谷歌、搜狗、微博等排行旁，或者其他类的舆情分析产品；
（3）数据买卖，爬取数据提供给买数据的公司，例如天眼查、西瓜数据等；
（4）数据采集，政府、企业、科研工作者等用户根据需求爬取所需要的数据；
（5）爬取一些自己想要的资源，比如爬取美剧、电影等。
在这里插入图片描述

二、使用步骤

1装入所需要的库

这里使用requests库，requests是非常适合初学者及个人使用的库
这里直接用，pip指令装入pip install requests
可以用pip list 指令查看已装的库

如果看到requests则代表库已经装好

注：win+r输入cmd回车进入命令行输入以上代码
一般安装python的时候会自动装pip，如果出现pip不是内部或外部指令，应该就是路径问题
最有效简单的方法就是在pip官网下载放入python的Scripts目录下

2.这里直接给出爬虫通用框架

使用爬虫代码框架，可以使程序更稳定，安全

代码如下（示例）：

#try except语句用来获取异常
import requests
def getHTMLText(url):#构造函数,url为网址
    try:
        r=request.get(url,timeout=30)
        r.raise_for_status()#如果状态码不是200，则引发HTTPError异常
        r.encoding = r.apparent.encoding#使返回的解码正确
        return r.text#返回文本
    except:
        return "产生异常"
  
if__nema__=="__main__":
     url = "http://www.baidu.com"
     print(getHTMLText(url))