暑期实践方向:python爬虫

  1. 含义:Python爬虫即使用Python程序开发的网络爬虫(网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。爬虫指一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息。
  2. 爬虫架构:
  • 调度器:相当于一台电脑的CPU,主要负责调度URL管理器、下载器、解析器之间的协调工作。
  • URL管理器:包括待爬取的URL地址和已爬取的URL地址,防止重复抓取URL和循环抓取URL,实现URL管理器主要用三种方式,通过内存、数据库、缓存数据库来实现。
  • 网页下载器:通过传入一个URL地址来下载网页,将网页转换成一个字符串,网页下载器有urllib2(Python官方基础模块)包括需要登录、代理、和cookie,requests(第三方包)
  • 网页解析器:将一个网页字符串进行解析,可以按照我们的要求来提取出我们有用的信息,也可以根据DOM树的解析方式来解析。网页解析器有正则表达式(直观,将网页转成字符串通过模糊匹配的方式来提取有价值的信息,当文档比较复杂的时候,该方法提取数据的时候就会非常的困难)、html.parser(Python自带的)、beautifulsoup(第三方插件,可以使用Python自带的html.parser进行解析,也可以使用lxml进行解析,相对于其他几种来说要强大一些)、lxml(第三方插件,可以解析 xml 和 HTML),html.parser 和 beautifulsoup 以及 lxml 都是以 DOM 树的方式进行解析的。
  • 应用程序:就是从网页中提取的有用数据组成的一个应用。                          

 3.如何工作

爬虫在 Web 上查找分配给某些类别的信息,然后对其进行索引和编目,以便可以检索和评估已爬网的信息。‎‎在启动爬网之前,需要建立这些计算机程序的操作。因此,每个订单都是预先定义的。然后,爬网程序会自动执行这些指令。使用爬网程序的结果创建索引,可以通过输出软件访问该索引。‎‎爬网程序将从 Web 收集的信息取决于特定的指令。‎

4.作用:

收集数据

python爬虫程序可用于收集数据。爬虫程序使获取大量数据变得非常简单和快速。由于99%以上的网站是基于模板开发的,使用模板可以快速生成大量布局相同、内容不同的页面。因此,只要为一个页面开发了爬虫程序,爬虫程序也可以对基于同一模板生成的不同页面进行爬取内容。

爬虫调研

如果你使用爬虫来抓取公司网站上所有产品的销售情况,那么你就可以计算出公司的实际总销售额。如果你抓取所有的评论并对其进行分析,你还可以发现网站是否出现了刷单的情况。

刷流量和秒杀

刷流量是python爬虫的自带的功能。当一个爬虫访问一个网站时,如果爬虫隐藏得很好,网站无法识别访问来自爬虫,那么它将被视为正常访问。结果,爬虫“不小心”刷了网站的流量;除了刷流量外,还可以参与各种秒杀活动,包括但不限于在各种电商网站上抢商品,优惠券,抢机票和火车票。

  • 就业市场调查报告

 技能要求

  1. 掌握python基础知识(重点学习数据类型,第三方库的应用及正则表达式相关内容);
  2. 了解爬虫的基本原理及过程(模拟用户通过浏览器获取信息的过程 发送请求—获得页面—解析页面—抽取并储存内容)
  3. 前端和网络知识(前端主要有HTML,CSS,JS;网络主要有http协议中的POST/GET相关知识)
  4. 学习python包(Python爬虫包有urllib、requests、bs4、scrapy、pyspider 等)
  5. 了解非结构化数据储存(通过爬虫抓取到的数据可以直接用文档的形式存在本地,也可以存入数据库中,对于少量数据,可以直接通过Python语法或者pandas将数据存在text、csv文件中。)
  6. 掌握各种技巧应对网站的反爬措施
  7. 学习爬虫框架,搭建工程化爬虫(scrapy 是一个功能非常强大的爬虫框架,它不仅能便捷地构建request,还有强大的 selector 能够方便地解析 response)
  8. 学习数据库基础,应对大数据的储存
  9. 分布式爬虫实现大规模并发采集(分布式爬虫主要是用来应对爬取海量数据的问题。其实就是利用多线程的原理让多个爬虫同时工作,你需要掌握Scrapy + MongoDB + Redis 这三种工具。Redis主要是用来存储要爬取的网页队列即任务队列。)

 职位:网络爬虫工程师

就业前景:

高端技术人才缺口较大,就业机会相对大。网络爬虫作为数据采集的利器,在大数据时代作为数据的源头,十分有用武之地。无论营销、运营还是产品经理,高效获取有效数据已成为职场必备技能。但是科技不断进步使一些app代替了低级的爬虫手段,爬虫这个行业会越来越难做,门槛会越来越高。要想在这个行业发展,必须不断积累自己该方面的知识储备,让自己站在高端人才的队列中。不可否认的是,做爬虫非常有前景。

工作内容:

  • 岗位要求:负责对行业数据的采集、管理,并不断完善行业数据积累;主要针对国内一些电商网站,进行数据爬取,获取相关产品信息;开发爬虫程序或者使用第三方软件,精准获取数据。熟练运用各种方法、工具绕过反爬虫.;负责爬虫架构设计和研发;负责爬虫核心搜索策略、算法、数据聚类、重组的设计与开发;负责网络爬虫或数据采集软件的优化改进以及采集规则编写;解决封账号、封IP等采集难点攻克;确保所负责的站点按周期采集及时,全面等等。
  • 工作时间:多为早上八点半到下午五点半,双休(工作时间因公司制度不同而变化)
  • 待遇:平均15-20k/月,五险一金,带薪休假,加班补助,年终奖等(薪资因知识水平、工作城市不定)

发展路径:

全国计算机等级考试Python程序语言设计、Python Institute资格认证初级PCEP证书、Python Institute资格认证中级PCAP证书、Python Institute资格认证高级PCPP证书、工信部Python技术应用工程师专项技术证、百度技术认证深度学习工程师。(python相关证书

暑期学会python和爬虫的相关基础知识,在csdn博客上跟着优秀的工程师敲代码,做出一些简单项目;大二优选课选择数据挖掘技术,跟着老师系统学习,进一步掌握相关知识,12月份报名,3月份进行全国计算机二级考试;大三对技能掌握相对成熟,可以在竞赛网上面找一些相关比赛,拿证书,提高自己的竞争力,此期间可以尝试考核初级PCEP证书。大四找到相应公司实习,实战演练,自我提高。(纯小白,如果有更好的建议分享,非常感谢)

总结:目前只对python有微薄了解,技术方面都很欠缺,需要先掌握python相关的基础知识,才能深入学习。python爬虫学习基本步骤为  了解网页结构-使用requests库抓取网站数据-使用Beautiful Soup解析网页-清洗和组织数据-爬虫防攻战。如果说想去相关企业实习或工作,为了提高竞争力可以考取相关证书,进行一些含金量高的比赛,比如大学生数字技能应用大赛python科目(6.12之前报名);大学生计算机技能应用大赛python科目(6.12之前报名)等。

暑期学习计划(三小一大任务)

两个月共八周,细分为三个阶段:

  • 第一周,完成暑期实践方向选择报告
  • 第一阶段:二到三周,看鱼C-小甲鱼2019年视频学习,了解并掌握python的基础知识。共有81节视频教程,每天至少七节课,记笔记并跟着up主敲代码,理论与实践并行,将自己的代码成果分享到csdn博客上,每周至少5天。
  • 第二阶段:四到七周,在相关平台上进行实际模块学习(如爬虫requests模块,selenium 模块,scrapy模块,djanjo模块),利用所学模块进行实战,完成三个小项目。

首先跟着Mei0351初步了解爬虫。在B站上看奇乐编程学院的10分钟快速掌握正则表达式;之后,看B站上的爬虫知识讲解(一共130集),每天至少七节课,随着视频做作业,并完成三个小项目。 看视频的同时,可以结合csdn上的博主的笔记学习,跟着蒙小骏博主学习requests模块;跟着Code皮皮虾博主学习Beautiful soup模块等等了解相关模块。  

  • 第三阶段:第八周,根据所学知识完成网页版抖音视频和评论的爬取

Python(基础知识)

https://www.bilibili.com/video/BV1xs411Q799?from=search&seid=762186168368453205 爬虫(基础知识加实践  130节课,看完可做项目)

2020年Python爬虫全套课程(学完可做项目)_哔哩哔哩_bilibili

以上是我的暑期实践报告,如有问题,敬请批评指正

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值