爬虫
Deep_IT
这个作者很懒,什么都没留下…
展开
-
Python网络爬虫(Get、Post抓取方式)
简单的抓取网页import urllib.request url="http://google.cn/" response=urllib.request.urlopen(url) #返回文件对象page=response.read()直接将URL保存为本地文件import urllib.request url="http://www.xxxx.com/转载 2016-02-19 10:07:46 · 1147 阅读 · 0 评论 -
python网页爬虫之列车时刻表的抓取-完整的python脚本
#! /usr/bin/env python#coding=utf8# by meichenhui@gmail.com 2010/5/30from HTMLParser import HTMLParserfrom pyquery import PyQuery as pqimport sqlite3,urllib2,logging,sysfrom datetime imp转载 2016-02-19 10:10:47 · 3206 阅读 · 0 评论 -
pytho多线程+html正文抽取
今天将 一个bfs 的爬虫 和 抽取Html整合到一起了。现在功能还是有局限性 。 其中抽取正文,详见 http://www.fuxiang90.me/2012/02/%E6%8A%BD%E5%8F%96html-%E6%AD%A3%E6%96%87/现在只限定爬取 http 协议的网址,并只在内网测试了,因为和外网的连接不是不快。 一个全局的 url 队列 和 url set 。队转载 2016-02-19 10:15:53 · 497 阅读 · 0 评论 -
python XPath
作用:提取Item资料http://doc.scrapy.org/topics/selectors.html#topics-selectors 这是一些XPath表达式的例子和他们的含义/html/head/title: 选择HTML文档元素下面的 标签。/html/head/title/text(): 选择前面提到的 元素下面的文本内容//td: 选择所有 元素//div[原创 2016-02-26 15:22:26 · 706 阅读 · 0 评论 -
python mysql
windows python+mysql安装包: http://www.codegood.com/archives/129分为32和64位~直接安装即可原创 2016-02-26 16:56:38 · 625 阅读 · 0 评论