python 页面信息抓取

原创 2015年07月09日 12:17:12

1. 特点

  在python 解析html这篇文章中已经做了初步的介绍,接下来再坐进一步的说明。python抓取页面信息有以下两个特点:
  

  • 依赖于HTML的架构。

  • 微小的变化可能会导致抓取失败,这取决于你编码的技巧。


2. 抓取示例

  首先看一下百度视频网页的源代码,大致浏览下,选定要抓取的网页元素。
  src
  
  假设我们要对div标签id为focusCarouselList里的相关内容进行提取。首先进入python命令行环境,先按照以下代码打开网页并读取内容。
  

>>>
>>> import urllib
>>> from bs4 import BeautifulSoup
>>>
>>> httpRespone = urllib.urlopen(“http://video.baidu.com“)
>>>
>>> httpRespone.code
200
>>>

  将页面信息读入到html的一个变量中:html = httpRespone.read()
  使用BeautifulSoup解析这个页面:bs = BeautifulSoup(html,"lxml")
  查找id为ocusCarouselList的div标签:focusList = bs.find('div',id='focusCarouselList')
  
  bs
  
  在focusList中查找这一div中所有的超链接:allLinks = focusList.find_all('a')
  可用allLinks[0]直接访问第一个链接的内容:
  link0
  
  如果要在这些超链接中查找标题为“协警押送嫌犯遭其同伙袭击”,可用下面代码:
  videoLink1 = bs.find('a',{'title':'协警押送嫌犯遭其同伙袭击'})
  title
  
  videoLink1[‘href’]可以直接获取到链接的地址。
  
  查找所有图片的标签:imgLinks = focusList.find_all('img')
  获取某个图片链接的源地址:imgLinks[0]['src']
  img

python抓取页面数据实例

抓取文章数据保存在本地#coding=utf-8 import urllib import redef getHtml(url): page = urllib.urlopen(url) ...

python 得到HTML指定ID的内容

大多时候,我们需要得到一个HTML文件中指定的内容,比如得到指定ID的内容,写了个脚本,就实现了这个功能,和大家一起分享一下。 ## # created by gudonghua#gmail.c...
  • wcc526
  • wcc526
  • 2013年12月07日 22:41
  • 1391

pytho多线程+html正文抽取

今天将 一个bfs 的爬虫 和 抽取Html整合到一起了。现在功能还是有局限性 。 其中抽取正文,详见 http://www.fuxiang90.me/2012/02/%E6%8A%BD%E5%8F%...

python爬取网页信息

最近在学习python,发现通过python爬取网页信息确实方便,以前用C++写了个简单的爬虫,爬取指定网页的信息,代码随便一写都几百行,而要用python完成相同的工作,代码量相当少。前几天看到了一...

python进行文档抽取与解析的简单实现

python进行文档抽取与解析的简单实现

python 抽取信息

获取网页中的信息,用到了BeautifulSoup和tornado #!/usr/bin/env python3 from bs4 import BeautifulSoup #import torn...

python命名实体抽取学习记录(1)

一、命名实体识别基本概念           信息有多种表现形式,一个重要的形式就是结构化数据:即实体和关系的规范和可预测的组织。而现实生活中大多数自然语言句子是非结构化数据,为从文本获得其意义,我们...

python提取包含关键字的整行数据

问题描述: 如下图所示,有一个近2000行的数据表,需要把其中含有关键字‘颈廓清术,中央组(VI组)’的数据所在行都都给抽取出来,且提取后的表格不能改变原先的顺序。 问题分析: 一开始想用e...
  • AmyQUE
  • AmyQUE
  • 2016年03月19日 21:12
  • 5729

用Python开始机器学习(5:文本特征抽取与向量化)

文本特征抽取与向量化 TF-IDF 词频-反转文档频率
  • lsldd
  • lsldd
  • 2014年11月26日 22:09
  • 44421

Python中文文本信息抽取中常见的正则表达式

我在使用python做一些文本信息抽取的时候,用到了python的正则表达式匹配。我找了网上很多博客和文章,发现里面很多的情况考虑都太理想化,脱离实际,并不周全,所以这里对常见的python正则表达式...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:python 页面信息抓取
举报原因:
原因补充:

(最多只允许输入30个字)