python-慕课网-Python开发简单爬虫-蚂蚁-读书笔记

最新推荐文章于 2024-07-17 23:50:36 发布

最小森林

最新推荐文章于 2024-07-17 23:50:36 发布

阅读量1.5k

点赞数 1

分类专栏： Python爬虫文章标签： ajax 爬虫框架

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012052268/article/details/70859168

版权

Python爬虫专栏收录该内容

15 篇文章 5 订阅

订阅专栏

本文阅读并记录自己的学习笔记。感谢蚂蚁大神的分享。

主要目录：

爬虫基础
- 1.1 爬虫课程介绍
- 1.2 爬虫简介
- 1.3 爬虫架构
- 1.4 URL管理模块
- 1.5 网页下载器：urllib2
- 1.6 网页解析器：正则或BeautifulSoup
- 1.7 爬取实践
Scrapy框架的学习
- 2.1啊

爬虫的难点

有的网站需要登录
有些内容是JS的Ajax异步加载的。很难搞到数据。
但是我们这门课是入门，所以只解决不需要登录的静态加载网页，上面2个问题以后专门去解决。

1 课程内容

爬虫简介
爬虫架构
1. URL管理器
2. 网页下载器（urllib2）
3. 网页解析器（BeautifulSoup）
实战：
爬去百度百科关于Python的页面。保存进一个html页面中。

爬虫简介

爬虫比人工快多了。

爬虫价值

过程：爬虫：抓取数据-存储数据-分析数据-产品(大数据)

应用：

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。