python-慕课网-Python开发简单爬虫-蚂蚁-读书笔记

本文阅读并记录自己的学习笔记。感谢蚂蚁大神的分享。

主要目录:

  1. 爬虫基础
    • 1.1 爬虫课程介绍
    • 1.2 爬虫简介
    • 1.3 爬虫架构
    • 1.4 URL管理模块
    • 1.5 网页下载器:urllib2
    • 1.6 网页解析器:正则或BeautifulSoup
    • 1.7 爬取实践
  2. Scrapy框架的学习
    • 2.1啊

爬虫的难点

  1. 有的网站需要登录
  2. 有些内容是JS的Ajax异步加载的。很难搞到数据。
    但是我们这门课是入门,所以只解决不需要登录的静态加载网页,上面2个问题以后专门去解决。



1 课程内容

  1. 爬虫简介
  2. 爬虫架构

    1. URL管理器
    2. 网页下载器(urllib2)
    3. 网页解析器(BeautifulSoup)
  3. 实战 :
    爬去百度百科关于Python的页面。保存进一个html页面中。

爬虫简介

image
爬虫比人工快多了。

爬虫价值

过程:爬虫:抓取数据-存储数据-分析数据-产品(大数据)

应用:image

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值