值得每一个学Python爬虫的人，反思的项目总结_python爬虫报告收获和不足

最新推荐文章于 2024-06-15 16:25:52 发布

m0_60707579

最新推荐文章于 2024-06-15 16:25:52 发布

阅读量959

点赞数 14

分类专栏：程序员文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/m0_60707579/article/details/138367700

版权

程序员专栏收录该内容

274 篇文章 0 订阅

订阅专栏

本文讲述了作者通过爬虫项目实践，反思了爬虫过程中的技术要点，如环境设置、目标网站分析、数据解析技巧，以及技术提升中的并发处理、错误处理和增量爬取策略。同时强调了系统学习资源的价值，包括Python学习路线、项目练手、电子书等，鼓励社群内的技术交流与合作。

摘要由CSDN通过智能技术生成

也许有的时候结果并不是最重要的，下面来看一下这个爬虫项目的反思，过程有的时候比结果更重要，更值得细细体会！

2.爬虫项目的分析

一个数据分析的过程，一般分几步，数据的爬取->数据的清洗->数据的存储->数据可视化分析->再深一点就是数据挖掘！

用到的知识其实非常多，我们一共分了3期走:

第一期是爬取
第二期是存储
第三期是数据可视化

非常有趣的一个项目，至少我自己是很感兴趣的。

1).安装环境和工具的准备

工欲善其事，必先利其器！第一步是安装环境，推荐Pycharm,当然有人喜欢用sublime,Atom等等都可以，你自己用的顺手就可以了！爬虫用的库可以有很多选择，我们主推requests,解析的库用bs4,xpath,pyquery这些都可以,看你自己用的爽，用的熟练就行！

2).目标网站的分析

这次群里还请到了一位爬虫高手阿蔡的加入，以前一直玩爬虫的。加入了我们的实战群指点大家，拉勾的网站非常熟悉，我们可以有两种方法去爬取

手机网站的爬取，手机站点会容易很多，简单分析之后就可以得到网站的数据，几行代码就可以获取的json格式的职位数据集
PC网站的爬取，PC端会稍微复杂一些，因为数据是动态加载的，仔细的分析http请求内容，也很快可以找到入口

3).数据的解析

因为我们返回的是json数据，非常好分析，建议可以用pprint这款神器库先打印一下，找到我们要的职位的数据！

手机端的数据长这样:

 {'city': '上海',

  'company\_full\_names': '拉扎斯网络科技（上海）有限公司',

  'company\_name': '饿了么',

  'create\_time': '2018-03-20',

  'positionId': 2779439,

  'positionName': 'Python开发工程师（全栈）',

  'salary': '15k-25k'}

PC端的数据会稍微丰富一些，长这样:

{

 'businessZones': ['东四', '美术馆', '北新桥'],

 'city': '北京',

 'companyFullName': '凡普金科企业发展（上海）有限公司',

 'companyLabelList': ['年底双薪', '节日礼物', '技能培训', '带薪年假'],

 'createTime': '2018-03-22 10:41:03',

 'education': '本科',

 'linestaion': '5号线_东四;5号线_张自忠路;5号线_北新桥;6号线_东四;6号线_南锣鼓巷',

 'positionName': 'Python工程师',

 'salary': '25k-35k',

 'secondType': '后端开发'}

解析字典的时候会区分一下，然后获取总的页数，一般解析第一页就可以看到页数.然后进行循环爬取，进行解析。比如我们要获取职位的名称，职位的公司，职位的薪水，职位的城市和发布日期，这几个特征值，然后保存在一个字典列表里面即可！

4).数据的保存

常见的数据的保存我们一般用csv和json文件保存，csv文件一般都是先写一个头部，然后再把上面的字典列表数据一行一行存储在里面.json文件更方便了，我们直接建一个文件dump一下就可以保存了

上面走一遍，感觉是不是很容易啊！如果你只看到这里，那么你离进阶又失之交臂了！