python爬取ul下的li是空的_Python数据科学实践 | 爬虫1

最新推荐文章于 2022-04-19 13:56:05 发布

weixin_39860975

最新推荐文章于 2022-04-19 13:56:05 发布

阅读量834

点赞数

文章标签： python爬取ul下的li是空的 webview解析网页数据

点击上方蓝色字体，关注我们

大家好，基于Python的数据科学实践课程又到来了，大家尽情学习吧。本期内容主要由智亿同学与政委联合推出。

前面几章大家学习了如何利用Python处理与清洗数据，如何探索性数据分析，以及如何利用统计与机器学习方法进行建模。但是，很明显我们忽视了一个最原始的问题：数据从何而来。没有数据，这就好比，你学了十八般武艺，可是没有让你施展的地方一样难受。大家不要忘记，提出问题，采集数据，然后才是你的十八般武艺的施展。本章将会讲解Python的爬虫模块，目的是让你学习的Python技术有用武之地。

爬虫，可能同学们都有所“耳闻”，但是对爬虫是什么还不甚了解。

爬虫，全称“网络蜘蛛”。爬虫能干什么呢？一言以蔽之，替代人工采集数据。比如，某吃货想挑选出西安全城的火锅店评分最高的前10家，怎么办呢？首先，得寻找一家在线点评网站，如百度糯米(网站截图如下所示)。

图7-1 百度糯米网站截图

每页25条数据，一共有8页，共计176条数据。

最原始的办法是，勤劳的鼠标左键 + ctrl+c 到excel中，再按评分排序。在数据量少、字段少的情况下，这么做的弊端可能并不明显。但是，现在如果需要店名、评分、人均、地址、优惠活动、营业时间、买家评论等等，恐怕再勤劳的同学也会勇敢的说“不”。

这时候爬虫就有了用武之地——自动化采集网页数据，存储成结构化的数据便于后续分析。数据采集，往往是数据科学实践的第一步——毕竟，巧妇难为无米之炊嘛！

从本章开始，让我们一起来揭开爬虫“神秘的面纱”。学习完本章后，希望同学们能在遇到这类机械性的体力劳动面前，勇敢的说“不”！

注意，本书定位是“入门+实战”，旨在让读者能够快速熟悉、快速上手。因此，只讲解最核心的知识点和函数使用，即使不了解背后原理，应对日常的数据采集也绰绰有余。对原理感兴趣的同学，请自行学习相关文档。

7.1 初级篇—单页面静态爬虫

本小节将学会：

● 了解网络请求的基本原理；

● 学习如何使用requests对网站发起请求；

● 了解网页的基本构成；

● 学习如何使用BeautifulSoup解析网页；

● 学习如何将解析结果存入文件；

学完以上，我们就能

最低0.47元/天解锁文章

weixin_39860975

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python爬取ul下的li是空的_Python数据科学实践 | 爬虫1

点击上方蓝色字体，关注我们大家好，基于Python的数据科学实践课程又到来了，大家尽情学习吧。本期内容主要由智亿同学与政委联合推出。前面几章大家学习了如何利用Python处理与清洗数据，如何探索性数据分析，以及如何利用统计与机器学习方法进行建模。但是，很明显我们忽视了一个最原始的问题：数据从何而来。没有数据，这就好比，你学了十八般武艺，可是没有让你施展的地方一样难受。大家不要忘记，提出问...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。