python可以爬取什么数据_有哪些网站用爬虫爬取能得到很有价值的数据？

最新推荐文章于 2023-10-25 09:38:02 发布

weixin_39929723

最新推荐文章于 2023-10-25 09:38:02 发布

阅读量414

点赞数

文章标签： python可以爬取什么数据

前阵子在自学Python，可是平常用不到的话语法什么的就好容易忘啊，一个劲的print又没多大成就感，于是了解了requests、bs4、openpyxl、Scrapy...这些python库，对拉勾网上面的职位信息进行爬取。

爬虫系统

这是部分职位.....

这是爬下来的数据...

这是生成的Excel...

前方是数据分析报告，多图预警！！

分析报告

职位印象

对于每一个职位而言，如何能迅速了解其背景呢？

这就是在V1.3版本中加入的职位印象功能了...

简单来说呢，就是在抓取每一个职位职位数据，对其进行一系列的分析，分词、统计词频，生成排名前20的热度词...

这是拉勾网的职位要求...

下面以[数据挖掘]岗位为例进行试验...

[这是抓取的所有详情页数据]

[这是分析结果]

[职位印象]

深度学习：

可以看到，“深度学习”、“机器学习”、“算法”是最热门词汇，而Deep Learning常常使用的语言为C++和Python，应用领域最多的是计算机视觉。常被提及的是卷积神经网络（CNN），框架方面则为Caffe（虽说框架用什么无所谓，但还是有点好奇2017年了为什么不该是TensorFlow）.

自然语言处理：

对于NLP岗位，“算法”和“机器学习”依然是最热门词汇，编程语言则提及最多的是Python和C++。

数据挖掘：

在综合了所有“数据挖掘”岗位招聘要求数据之后，经过分析，“数据挖掘”、“机器学习”、“算法”是常被提及的热度词。数据挖掘岗位对编程语言的要求则为Python和Java。毕竟有Hadoop/Spark等成熟的生态体系。

人工智能：

推荐系统:

作为算法岗，数据、算法、数据挖掘、个性化理所应当是热门词汇。

机器学习：

严格意义上来说，NLP/Computer Vision/Data Mining/AI 等都是Machine Learning的应用领域，但此处还是单独将该职位拆分出来分析。

Android:

移动开发则更偏向经验、架构、项目、设计模式。

其他的分析就不一一赘述了，分析过程类似，详情见github。 ^_^

评论中有小伙伴要源代码的，在此分享出来，没有系统学习过python，代码组织什么的可能不太好，了解下实现流程就好啦。

相关资料本文分析报告下载：[PDF]lucasxlu.github.ioGithub Repository:lucasxlu/LagouJobgithub.com如果想学习爬虫、数据分析相关的东西，可以参考下我的另一篇文章：LucasX：世纪佳缘用户画像-Part1zhuanlan.zhihu.com知乎Live数据挖掘：LucasX：数据告诉你，知乎Live哪家强？zhuanlan.zhihu.com颜值打分LucasX：人工智能告诉你，你有多好看zhuanlan.zhihu.com机器鉴黄LucasX：Python+机器学习识别少儿不宜图片zhuanlan.zhihu.com人脸比对LucasX：AI机器人，带你正确逛知乎zhuanlan.zhihu.com

weixin_39929723

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python可以爬取什么数据_有哪些网站用爬虫爬取能得到很有价值的数据？

前阵子在自学Python，可是平常用不到的话语法什么的就好容易忘啊，一个劲的print又没多大成就感，于是了解了requests、bs4、openpyxl、Scrapy...这些python库，对拉勾网上面的职位信息进行爬取。爬虫系统这是部分职位.....这是爬下来的数据...这是生成的Excel...前方是数据分析报告，多图预警！！分析报告职位印象对于每一个职位而言，如何能迅速了解其背景呢？这就...
复制链接

扫一扫