爬虫
HP的博客
To be an oscer.
展开
-
Python爬虫之三种网页抓取方法性能比较
下面我们将介绍三种抓取网页数据的方法,首先是正则表达式,然后是流行的 BeautifulSoup 模块,最后是强大的 lxml 模块。1. 正则表达式 如果你对正则表达式还不熟悉,或是需要一些提示时,可以查阅Regular Expression HOWTO 获得完整介绍。 当我们使用正则表达式抓取国家面积数据时,首先要尝试匹配元素中的内容,如下所示:>>> import re>>> impor原创 2017-04-19 13:54:24 · 41680 阅读 · 2 评论 -
Python爬取数据并写入MySQL数据库
首先我们来爬取 http://html-color-codes.info/color-names/ 的一些数据。按 F12 或 ctrl+u 审查元素,结果如下: 结构很清晰简单,我们就是要爬 tr 标签里面的 style 和 tr 下几个并列的 td 标签,下面是爬取的代码:#!/usr/bin/env python# coding=utf-8import requestsfrom bs4原创 2017-04-20 14:15:58 · 41724 阅读 · 5 评论 -
Python爬取西刺国内高匿代理ip并验证
1.抓取ip存入文件首先,我们访问西刺首页 http://www.xicidaili.com/,并点击国内高匿代理,如下图:按 F12 检查网页元素或者 ctrl+u查看网页源代码:我们需要提取的是 ip 和端口,这里我们用正则提取,代码如下:# -*- coding:utf8 -*-import urllib2import reimport timeheaders = { 'Accep原创 2017-07-11 23:09:17 · 17821 阅读 · 3 评论 -
Scrapy简明教程(五)——命令行传参爬取淘宝商品数据
首先我们先来看一下淘宝搜索商品的页面,这里以糖炒板栗为例: 可以看到搜索到了很多糖炒板栗,显示有100页,但真正搜索到的商品超过了100页,给用户只显示前100页,后面编写的爬虫只爬取前50页,url构造这里就不讲了,之前的博客已经讲过了,需要更多可以自己更改页数,然后我们检查网页元素,找到商品链接并复制,然后在网页源代码里查找,结果如下: 发现并没有找到,说明该数据是动态原创 2018-01-07 14:14:09 · 7537 阅读 · 5 评论