简述python爬虫_Python 爬虫简述

环境

OS : Windows 10 1511

Python -v : 3.5.1 win32

IDE : Pychram 2016.1.2

Test Browser : Firefox

DB : MySQL

模块准备

urllib 内置,获取 HTML,容易被封

Selenium 需安装,配合浏览器获取 HTML

BeatifulSoup4 需安装,文档,分析 HTML

pymysql 需安装,操作 MySQL

思路

优先使用 urllib 进行网页抓取,如果完全被禁,使用 Selenium,后者默认使用带 UI 的浏览器 Firefox ,可使用无 UI 浏览器取代。

Selenium / urllib 取出数据所在的 HTML 代码,交给 BeatifulSoup4 做具体抽取

可通过列表(数组)、字典(关联数组),或类来存储页面上的结构化数据

将内存中的数据通过 pymysql 存入 MySQL 数据库

一些细节

Selenium

设置加载页面的时间,防止被墙的脚本拖延页面加载时间  driver.set_page_load_timeout(num)

使用 XPath 获取元素 driver.find_element_by_xpath(‘//body’)

得到元素 HTML 代码 body.get_attribute(‘innerHTML’)

BeatifulSoup4

使用 urllib.parse.unquote() 对链接中的 URL 转码进行还原

SQL

使用 INSERT IGNORE INTO 取代 INSERT INTO,避免主键重复造成的错误

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值