北欧--2022年Python爬虫心得

最新推荐文章于 2024-05-01 10:05:18 发布

北欧。

最新推荐文章于 2024-05-01 10:05:18 发布

阅读量3k

点赞数 2

文章标签： python 爬虫 scrapy beautifulsoup numpy

本文链接：https://blog.csdn.net/senlin1037/article/details/128366850

版权

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

前言

`网络爬虫也称为“蜘蛛”，它可以在海量的互联网信息爬取需要的信息。简单地说它是模拟人类请求网站的行为，即自动请求网页、抓取数据，然后从中提取有价值的数据。具体步骤如下，首先发送请求获取目标网页，通过分析页面获得网页的源代码。其次，解析页面从网页源代码中提取出本研究所需的数据。该操作为数据的处理以及分析提供便利，因此需要给予高度重视。最后，以适当的格式保存抽取的部分数据。通常以 TXT文本、CSV或JSON等格式将数据保存在文本中。

一、python爬虫心得

学习python爬虫之前，在学校安排的《数据仓库与数据挖掘》课程中，学习了一线python的基础知识。之后我便在慕课和b站中自学了python爬虫的一些知识，对python爬虫有一定的知识储备。在本课程开课，跟着老师学习真正的python爬虫之后，才算是真正入门python爬虫，也才知道网上免费的课程其实只是教一些皮毛的东西，学校的老师教给我们的才是更深入更全面的知识，通过老师传授的知识，然后自己去爬取到的数据有一种莫名的震撼和成就感，终于感受到了python爬虫的有趣和魅力。
刚开始上老师的课时，感觉和学校里面老师的讲课方式不一样，学校里面的老师大多数偏向于讲一些书本上的理论知识，很少关心能否真正实践于生活。但老师的讲课方式恰恰相反，相对于其他老师更侧重于学习该课之后能否服务于将来的实际生活，能否在将来的工作和生活中起作用。
老师在讲课过程中，通过讲课内容然后教我们安装了一些python爬虫需要用到的软件，比如Anaconda、Pycharm、Mysql、Mongodb等，有了这些工具我们可以更好的进行爬虫学习。
学习一学期老师的课程之后，关于python爬虫我的一些总结，大概学习步骤为：
（1）安装requests库和BeautifulSoup库；
（2）获取爬虫所需的header和cookie
（3）获取网页
（4）解析网页
（5）分析得到的信息，简化地址
（6）爬取内容，清洗数据
（7）将相应数据库连接进行数据存储
以上，有不足的地方，python这个语言需要一个不断学习的过程，python功能很多，爬虫只是其中一个功能，深入学习python我相信肯定还会有更大的收获，但目前肯定还是把python学透学精，所以结束该课程之后也还要继续学习python爬虫，多多实践，遇到问题首先学会自己去尝试解决，解决不了再去请教专业人士。这样子才会学到更多知识，才能再将来的工作中才会帮助到我们。

二、Pip模块

（1） Requests
requests是一个很实用的Python HTTP客户端库，爬虫和测试服

最低0.47元/天解锁文章

北欧。

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
2
评论
北欧--2022年Python爬虫心得

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档前言`网络爬虫也称为“蜘蛛”，它可以在海量的互联网信息爬取需要的信息。简单地说它是模拟人类请求网站的行为，即自动请求网页、抓取数据，然后从中提取有价值的数据。具体步骤如下，首先发送请求获取目标网页，通过分析页面获得网页的源代码。其次，解析页面从网页源代码中提取出本研究所需的数据。该操作为数据的处理以及分析提供便利，因此需要给予高度重视。最后，以适当的格式保存抽取的部分数据。通常以 TXT文本、CSV或JSON等格式将数据保存在文本中。
复制链接

扫一扫