Python网络爬虫与信息提取——导学篇

第一章 网络爬虫之前奏

●网络爬虫课程内容导学

  • 爬虫基本要求:掌握定向网络数据肥取和网页解析的基本能力
  • 主要部分:
    1、Requests:自动爬取HTML页面,自动网络请求提交;
    2、robots. txt:网络爬虫排除标准;
    3、Beautiful Soup:解析HTML页面,框架解析、提取相关信息;
    4、Re:正则表达式详解,提取页面局部关键信息;
    5、Scrapy*:专业网络爬虫框架。 网路爬虫纲要

● Python语言开发工具选择

  • 定义:IDE(集成开发环境,Integrated Development Environment )是用于提供程序开发环境的应用程序,一般包括代码编辑器、编译器、调试器和图形用户界面等工具。
  • 常用的 Python IDE工具:
    1、文本工具类IDE:IDLE、Notepad++、Sublime Text、Vim& Emacs、Atom和 Komodo Edit;
    2、集成工具类IDE:PyCharm、Wing、PyDev &Eclipse、Visual Studio、Anaconda&Spyder、Canopy。
  • 主流Python IDE工具介绍:
    ID工具特点适用环境
    IDLEPython自带、默认、常用的开发工具,分为交互式和文件式适用于Python入门,功能简单直接,300+代码以内
    Sublime Text专为程序员开发的第散方专用编程工具专业编程体验,多种编程风格
    Wing调试功能丰富,版本控制,版本同步适合多人共同开发,大型项目应用普遍
    Visual StudioWin环境为主,调试功能丰富习惯Win开发环境
    Eclipse开源IDE开发工具,提供很多自定义功能需要有一定开发环境
    PyCharm简单,集成度高适合较复杂工程
    Canopy工具收费,支持近500个第三方库适合科学计算领域应用开发
    Anaconda开源免费,支持近800个第三方库适合科学计算领域应用开发
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值