python可以爬取什么数据_有哪些网站用爬虫爬取能得到很有价值的数据?

前阵子在自学Python,可是平常用不到的话语法什么的就好容易忘啊,一个劲的print又没多大成就感,于是了解了requests、bs4、openpyxl、Scrapy...这些python库,对拉勾网上面的职位信息进行爬取。

爬虫系统

这是部分职位.....

这是爬下来的数据...

这是生成的Excel...

前方是数据分析报告,多图预警!!

分析报告

职位印象

对于每一个职位而言,如何能迅速了解其背景呢?

这就是在V1.3版本中加入的 职位印象功能了...

简单来说呢,就是在抓取每一个职位职位数据,对其进行一系列的分析,分词、统计词频,生成排名前20的热度词...

这是拉勾网的职位要求...

下面以[数据挖掘]岗位为例进行试验...

[这是抓取的所有详情页数据]

[这是分析结果]

[职位印象]

深度学习:

可以看到,“深度学习”、“机器学习”、“算法”是最热门词汇,而Deep Learning常常使用的语言为C++和Python,应用领域最多的是计算机视觉。常被提及的是卷积神经网络(CNN),框架方面则为Caffe(虽说框架用什么无所谓,但还是有点好奇2017年了为什么不该是TensorFlow).

自然语言处理:

对于NLP岗位,“算法”和“机器学习”依然是最热门词汇,编程语言则提及最多的是Python和C++。

数据挖掘:

在综合了所有“数据挖掘”岗位招聘要求数据之后,经过分析,“数据挖掘”、“机器学习”、“算法”是常被提及的热度词。数据挖掘岗位对编程语言的要求则为Python和Java。毕竟有Hadoop/Spark等成熟的生态体系。

人工智能:

推荐系统:

作为算法岗,数据、算法、数据挖掘、个性化理所应当是热门词汇。

机器学习:

严格意义上来说,NLP/Computer Vision/Data Mining/AI 等都是Machine Learning的应用领域,但此处还是单独将该职位拆分出来分析。

Android:

移动开发则更偏向经验、架构、项目、设计模式。

其他的分析就不一一赘述了,分析过程类似,详情见github。 ^_^

评论中有小伙伴要源代码的,在此分享出来,没有系统学习过python,代码组织什么的可能不太好,了解下实现流程就好啦。

相关资料本文分析报告下载:[PDF]​lucasxlu.github.ioGithub Repository:lucasxlu/LagouJob​github.comv2-9155d3f84208d01b40281078b434377d_ipico.jpg如果想学习爬虫、数据分析相关的东西,可以参考下我的另一篇文章:LucasX:世纪佳缘用户画像-Part1​zhuanlan.zhihu.comv2-e2ff46edde68dd4f92dbd8bbfdf16438_180x120.jpg知乎Live数据挖掘:LucasX:数据告诉你,知乎Live哪家强?​zhuanlan.zhihu.comv2-ba28c1b89f53be64670cfce6e3e34c2a_ipico.jpg颜值打分LucasX:人工智能告诉你,你有多好看​zhuanlan.zhihu.comv2-363722d5c01490cabd89622bdc7dc0bd_180x120.jpg机器鉴黄LucasX:Python+机器学习 识别少儿不宜图片​zhuanlan.zhihu.comv2-a7d775ec9ad381601a8004c55659deb8_180x120.jpg人脸比对LucasX:AI机器人,带你正确逛知乎​zhuanlan.zhihu.comv2-f55a6d0f4e48d46889c820a87e15d6c6_180x120.jpg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,下面是一个简单的Python爬虫爬取网页数据并解析数据的教程: 1. 确定目标网站和要爬取的信息 首先,需要确定要爬取网站和要提取的信息。可以使用Python的requests库向网站发送HTTP请求获取HTML源代码,并使用BeautifulSoup库解析HTML文档获取目标数据。 例如,我们要爬取CSDN博客的文章标题和链接,可以先打开CSDN博客主页,右键查看网页源代码,找到文章标题和链接所在的HTML标签。 2. 发送HTTP请求获取HTML源代码 接下来,使用Python的requests库向网站发送HTTP请求,获取HTML源代码。 ``` import requests url = 'https://blog.csdn.net/' response = requests.get(url) html = response.text ``` 3. 解析HTML文档获取目标数据 使用BeautifulSoup库解析HTML文档,获取目标数据。 ``` from bs4 import BeautifulSoup soup = BeautifulSoup(html, 'html.parser') titles = soup.find_all('div', class_='title') for title in titles: link = title.find('a').get('href') title_text = title.find('a').text.strip() print(title_text, link) ``` 上述代码中,通过`find_all`方法找到所有class属性为"title"的div标签,然后在每个div标签中找到第一个a标签,获取链接和标题文本。 4. 完整代码 ``` import requests from bs4 import BeautifulSoup url = 'https://blog.csdn.net/' response = requests.get(url) html = response.text soup = BeautifulSoup(html, 'html.parser') titles = soup.find_all('div', class_='title') for title in titles: link = title.find('a').get('href') title_text = title.find('a').text.strip() print(title_text, link) ``` 以上就是一个简单的Python爬虫爬取网页数据并解析数据的教程。需要注意的是,在爬取网站数据时要遵守网站爬虫协议,避免被网站封禁IP。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值