暑期实践方向：python爬虫

最新推荐文章于 2024-08-15 01:55:01 发布

置顶 ZSYi666

最新推荐文章于 2024-08-15 01:55:01 发布

阅读量921

点赞数 1

分类专栏：暑期实践文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/ZSYi666/article/details/131358566

版权

暑期实践专栏收录该内容

33 篇文章 0 订阅

订阅专栏

含义：Python爬虫即使用Python程序开发的网络爬虫(网页蜘蛛，网络机器人)，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。爬虫指一段自动抓取互联网信息的程序，从互联网上抓取对于我们有价值的信息。
爬虫架构：

调度器：相当于一台电脑的CPU，主要负责调度URL管理器、下载器、解析器之间的协调工作。
URL管理器：包括待爬取的URL地址和已爬取的URL地址，防止重复抓取URL和循环抓取URL，实现URL管理器主要用三种方式，通过内存、数据库、缓存数据库来实现。
网页下载器：通过传入一个URL地址来下载网页，将网页转换成一个字符串，网页下载器有urllib2（Python官方基础模块）包括需要登录、代理、和cookie，requests(第三方包)
网页解析器：将一个网页字符串进行解析，可以按照我们的要求来提取出我们有用的信息，也可以根据DOM树的解析方式来解析。网页解析器有正则表达式（直观，将网页转成字符串通过模糊匹配的方式来提取有价值的信息，当文档比较复杂的时候，该方法提取数据的时候就会非常的困难）、html.parser（Python自带的）、beautifulsoup（第三方插件，可以使用Python自带的html.parser进行解析，也可以使用lxml进行解析，相对于其他几种来说要强大一些）、lxml（第三方插件，可以解析 xml 和 HTML），html.parser 和 beautifulsoup 以及 lxml 都是以 DOM 树的方式进行解析的。
应用程序：就是从网页中提取的有用数据组成的一个应用。

3.如何工作

爬虫在 Web 上查找分配给某些类别的信息，然后对其进行索引和编目，以便可以检索和评估已爬网的信息。‎‎在启动爬网之前，需要建立这些计算机程序的操作。因此，每个订单都是预先定义的。然后，爬网程序会自动执行这些指令。使用爬网程序的结果创建索引，可以通过输出软件访问该索引。‎‎爬网程序将从 Web 收集的信息取决于特定的指令。‎

4.作用：

收集数据

python爬虫程序可用于收集数据。爬虫程序使获取大量数据变得非常简单和快速。由于99%以上的网站是基于模板开发的，使用模板可以快速生成大量布局相同、内容不同的页面。因此，只要为一个页面开发了爬虫程序，爬虫程序也可以对基于同一模板生成的不同页面进行爬取内容。

爬虫调研

如果你使用爬虫来抓取公司网站上所有产品的销售情况，那么你就可以计算出公司的实际总销售额。如果你抓取所有的评论并对其进行分析，你还可以发现网站是否出现了刷单的情况。

刷流量和秒杀

刷流量是python爬虫的自带的功能。当一个爬虫访问一个网站时，如果爬虫隐藏得很好，网站无法识别访问来自爬虫，那么它将被视为正常访问。结果，爬虫“不小心”刷了网站的流量；除了刷流量外，还可以参与各种秒杀活动，包括但不限于在各种电商网站上抢商品，优惠券，抢机票和火车票。

就业市场调查报告

技能要求

掌握python基础知识（重点学习数据类型，第三方库的应用及正则表达式相关内容）；
了解爬虫的基本原理及过程（模拟用户通过浏览器获取信息的过程发送请求—获得页面—解析页面—抽取并储存内容）
前端和网络知识（前端主要有HTML，CSS，JS；网络主要有http协议中的POST/GET相关知识）
学习python包（Python爬虫包有urllib、requests、bs4、scrapy、pyspider 等）
了解非结构化数据储存（通过爬虫抓取到的数据可以直接用文档的形式存在本地，也可以存入数据库中，对于少量数据，可以直接通过Python语法或者pandas将数据存在text、csv文件中。）
掌握各种技巧应对网站的反爬措施
学习爬虫框架，搭建工程化爬虫（scrapy 是一个功能非常强大的爬虫框架，它不仅能便捷地构建request，还有强大的 selector 能够方便地解析 response）
学习数据库基础，应对大数据的储存
分布式爬虫实现大规模并发采集（分布式爬虫主要是用来应对爬取海量数据的问题。其实就是利用多线程的原理让多个爬虫同时工作，你需要掌握Scrapy + MongoDB + Redis 这三种工具。Redis主要是用来存储要爬取的网页队列即任务队列。）

职位：网络爬虫工程师

就业前景：

高端技术人才缺口较大，就业机会相对大。网络爬虫作为数据采集的利器，在大数据时代作为数据的源头，十分有用武之地。无论营销、运营还是产品经理，高效获取有效数据已成为职场必备技能。但是科技不断进步使一些app代替了低级的爬虫手段，爬虫这个行业会越来越难做，门槛会越来越高。要想在这个行业发展，必须不断积累自己该方面的知识储备，让自己站在高端人才的队列中。不可否认的是，做爬虫非常有前景。

工作内容：

岗位要求：负责对行业数据的采集、管理，并不断完善行业数据积累；主要针对国内一些电商网站，进行数据爬取，获取相关产品信息；开发爬虫程序或者使用第三方软件，精准获取数据。熟练运用各种方法、工具绕过反爬虫.；负责爬虫架构设计和研发；负责爬虫核心搜索策略、算法、数据聚类、重组的设计与开发；负责网络爬虫或数据采集软件的优化改进以及采集规则编写；解决封账号、封IP等采集难点攻克；确保所负责的站点按周期采集及时，全面等等。
工作时间：多为早上八点半到下午五点半，双休（工作时间因公司制度不同而变化）
待遇：平均15-20k/月，五险一金，带薪休假，加班补助，年终奖等（薪资因知识水平、工作城市不定）

发展路径：

全国计算机等级考试Python程序语言设计、Python Institute资格认证初级PCEP证书、Python Institute资格认证中级PCAP证书、Python Institute资格认证高级PCPP证书、工信部Python技术应用工程师专项技术证、百度技术认证深度学习工程师。（python相关证书）

暑期学会python和爬虫的相关基础知识，在csdn博客上跟着优秀的工程师敲代码，做出一些简单项目；大二优选课选择数据挖掘技术，跟着老师系统学习，进一步掌握相关知识，12月份报名，3月份进行全国计算机二级考试；大三对技能掌握相对成熟，可以在竞赛网上面找一些相关比赛，拿证书，提高自己的竞争力，此期间可以尝试考核初级PCEP证书。大四找到相应公司实习，实战演练，自我提高。（纯小白，如果有更好的建议分享，非常感谢）

总结：目前只对python有微薄了解，技术方面都很欠缺，需要先掌握python相关的基础知识，才能深入学习。python爬虫学习基本步骤为了解网页结构-使用requests库抓取网站数据-使用Beautiful Soup解析网页-清洗和组织数据-爬虫防攻战。如果说想去相关企业实习或工作，为了提高竞争力可以考取相关证书，进行一些含金量高的比赛，比如大学生数字技能应用大赛python科目（6.12之前报名）；大学生计算机技能应用大赛python科目（6.12之前报名）等。

暑期学习计划（三小一大任务）

两个月共八周，细分为三个阶段：

第一周，完成暑期实践方向选择报告
第一阶段：二到三周，看鱼C-小甲鱼2019年视频学习，了解并掌握python的基础知识。共有81节视频教程，每天至少七节课，记笔记并跟着up主敲代码，理论与实践并行，将自己的代码成果分享到csdn博客上，每周至少5天。
第二阶段：四到七周，在相关平台上进行实际模块学习（如爬虫requests模块，selenium 模块，scrapy模块，djanjo模块），利用所学模块进行实战，完成三个小项目。

首先跟着Mei0351初步了解爬虫。在B站上看奇乐编程学院的10分钟快速掌握正则表达式；之后，看B站上的爬虫知识讲解（一共130集），每天至少七节课，随着视频做作业，并完成三个小项目。看视频的同时，可以结合csdn上的博主的笔记学习，跟着蒙小骏博主学习requests模块；跟着Code皮皮虾博主学习Beautiful soup模块等等了解相关模块。