web爬虫入门

最新推荐文章于 2024-03-29 10:05:31 发布

无处安放的吹枫机

最新推荐文章于 2024-03-29 10:05:31 发布

阅读量109

点赞数

文章标签：爬虫前端 python

原文链接：https://blog.csdn.net/qq_44000141/article/details/121303399?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522165270280216782246435415%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=165270280216782246435415&biz_id=0&utm_me

版权

网络爬虫开发实战源码：https://github.com/MakerChen66/Python3Spider

原创不易，本文禁止抄袭、转载，多年爬虫实战开发经验总结，侵权必究！

一、爬虫简介

什么是网络爬虫：一个可以自动登录网页获取信息的程序

爬虫能干什么：1.数据监控；2.数据收集；3.信息集合；4.资源采集

实用场景：假如由于工作需要，你要统计一下某网页上面某方面的数据，并存到Excel或CSV文件或者数据库中，但由于不懂爬虫，所以你只能依靠传统的人工收集方法，慢慢的登录网站，看清数据的值后，再慢慢写入Excel或者CSV中，可能由于数据量庞大，甚至有几千，几万条，乃至几亿条数据需要收集，这样浪费了大量时间，没有效率，会产生厌烦感。而会爬虫，只要程序一运行，你会感觉柳暗花明又一村，瞬间解决数据的收集

浏览网页的过程：

					   1.输入网址
                   2.浏览器向DNS服务器发送请求

                   3.找到对应服务器

                   4.服务器解析请求

                   5.服务器处理请求得到最终结果发回去

                   6.浏览器解析返回的数据

                   7.展示给用户

爬虫策略：1.从某个页面开始不断爬取页面上的链接

                    ~深度优先搜索
                ~广度优先搜索



       
    

     2.观察网址规律

前端三个重要方面：HTML，CSS，JS

HTML：网页最基本的元素，通过标记语言的方式来组织内容(文字，图片，视频)
CSS：指层叠样式表，它定义了网页如何显示里面的元素，包括文字的颜色，字体，大小等等
JS：主要用于前端的一种脚本编程语言，为网站提供动态、交互效果

这里就不仔细介绍这三种语言了，但想要学接下来的教程，就必须了解并掌握他们相关的部分

二、原文链接

本人原创公众号原文链接：阅读原文

原创不易，如果觉得有点用，希望可以随手点个赞，拜谢各位老铁！

三、作者Info

作者：小鸿的摸鱼日常，Goal：让编程更有趣！

原创微信公众号：『小鸿星空科技』，专注于算法、爬虫，网站，游戏开发，数据分析、自然语言处理，AI等，期待你的关注，让我们一起成长、一起Coding！

转载说明：务必注明来源（注明：来源于公众号：小鸿星空科技，作者：小鸿的摸鱼日常）

无处安放的吹枫机

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
web爬虫入门

网络爬虫开发实战源码：https://github.com/MakerChen66/Python3Spider 原创不易，本文禁止抄袭、转载，多年爬虫实战开发经验总结，侵权必究！目录一、爬虫简介二、原文链接三、作者Info 一、爬虫简介什么是网...
复制链接

扫一扫