python爬虫学习记录随笔

最新推荐文章于 2021-09-04 19:01:23 发布

^找猪的男孩^

最新推荐文章于 2021-09-04 19:01:23 发布

阅读量204

点赞数

分类专栏：笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/W983079520/article/details/118256110

版权

笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

学习爬虫也有一些时间了，把自己学习的过程写个小结吧
1 爬虫类别
通用爬虫：常见的各大搜索引擎如某度、某哥、某应等，主要用于爬取互联网上的网站链接提供相应的搜索服务；
各大搜索引擎厂商爬虫爬取数据类型获取可分为：网页链接自行爬取、域名注册服务厂商、DNS服务商等；
专注爬虫：主要针对某个网站或某类网站，对需要的数据进行爬取。
2 爬虫须知
robots.txt文件：记录网站是否可被爬取、可否爬取的目录、网站目录等，主要是给爬虫读取的，这里需要说一下爬虫需谨慎，不要乱爬！！！
3 爬虫爬取步骤
3.1 爬取数据源，即网站域名；
3.2 获取网站的网页数据；
3.3 网页数据解析及提取；
3.4 数据持久化存储。
4 python爬虫用到的库、包或框架
获取网页数据：urllib(内置)、requests(第三方)
数据解析：bs4.BeautufulSoup、selenium
数据提取：re(正则表达式)、xpath、bs
文件操作：panda、csv
其他库：time、os、sys
持久化：pymongo、pymysql 等
多进程/线程：multiprocessing、threading
框架：pyspider 、scrapy
5 python爬虫注意事项
不要乱爬！！！
不要乱爬！！！
不要乱爬！！！

^找猪的男孩^

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫学习记录随笔

学习爬虫也有一些时间了，把自己学习的过程写个小结吧1 爬虫类别通用爬虫：常见的各大搜索引擎如某度、某哥、某应等，主要用于爬取互联网上的网站链接提供相应的搜索服务；各大搜索引擎厂商爬虫爬取数据类型获取可分为：网页链接自行爬取、域名注册服务厂商、DNS服务商等；专注爬虫：主要针对某个网站或某类网站，对需要的数据进行爬取。2 爬虫须知robots.txt文件：记录网站是否可被爬取、可否爬取的目录、网站目录等，主要是给爬虫读取的，这里需要说一下爬虫需谨慎，不要乱爬！！！3 爬虫爬取步骤3.1 爬取数
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。