数据采集（三）：用XPath爬取腾讯新闻

最新推荐文章于 2023-05-24 11:45:04 发布

czl389

最新推荐文章于 2023-05-24 11:45:04 发布

阅读量3.2k

点赞数 1

分类专栏：数据处理与机器学习文章标签： xpath 爬虫腾讯新闻

本文链接：https://blog.csdn.net/czl389/article/details/75532628

版权

数据处理与机器学习专栏收录该内容

16 篇文章 13 订阅

订阅专栏

需要导入的库

import requests
from lxml import etree

先用requests.get()方法请求页面

result=requests.get("http://news.qq.com/")
encode=result.encoding
content=result.content
encode

'GB2312'

注意指定解析器的编码格式


selector=etree.HTML(content,parser=etree.HTMLParser(encoding=encode))

腾讯新闻首页上每条新闻的标题以及超链接，对应html源码有如下结构：

<a target="_blank" class="linkto" href="http://news.qq.com/a/20170720/019981.htm">辽宁舰过航台湾海峡遭美军驱逐舰跟踪 国防部回应</a>

用Xpath解析新闻的标题及url

samples=selector.xpath('//a[@class="linkto"]')

for sample in samples:
    title=sample.text.strip()
    print title

    url=sample.attrib['href']
    print url

辽宁舰过航台湾海峡遭美军驱逐舰跟踪 国防部回应
http://news.qq.com/a/20170720/019981.htm
“七下八上”主汛期将至：北方多雨 周末华北“退烧”
http://news.qq.com/a/20170720/019390.htm
巴西众院弹劾总统案获通过 罗塞夫政党承认落败
http://news.qq.com/a/20160418/023091.htm
腾讯股价拆股后首次达300港元 今年累计涨幅超55%
http://tech.qq.com/a/20170720/016568.htm
美国参议员麦凯恩被诊断出脑癌 曾参选美国总统
http://news.qq.com/a/20170720/009125.htm
人社部：36种高价刚需药纳入医保 最高降幅达70%
http://news.qq.com/a/20170720/012923.htm
人民日报海外版：印度推进“大国梦”急不可耐
http://news.qq.com/a/20170720/001930.htm
万达融创富力集体高开 三者签约637亿元并购案
http://stock.qq.com/a/20170720/015276.htm
苹果可能真的在造车，在中国秘密开发动力电池
http://tech.qq.com/a/20170720/010845.htm
开发商毁约夺地 将4S店砸成废墟
http://news.qq.com/a/20170719/058897.htm
苹果股价连涨9天创纪录 iPhone 8延迟上市也挡不住
http://tech.qq.com/a/20170720/016469.htm
印军在克什米尔地区对巴方“无故”开火 巴军方回击
http://news.qq.com/a/20170720/001479.htm
男孩独自乘机出国被逐下航班 航空公司：托管儿童超额
http://news.qq.com/a/20170720/001745.htm
地产三巨头60分钟魔幻剧：富力背景板“进出”大戏
http://finance.qq.com/a/20170719/061523.htm
范冰冰亏4400万又如何？投房地产葡萄酒收获颇丰
http://ent.qq.com/a/20170720/005916.htm
刘亦菲获专人撑伞 长发白裙却穿拖鞋
http://ent.qq.com/a/20170720/005185.htm
袁泉带女儿现身 小姑娘推行李超自立
http://ent.qq.com/a/20170720/007934.htm
美股三大指数齐创收盘纪录新高 纳指九连涨
http://stock.qq.com/a/20170720/001560.htm
神锋驾到！切尔西官方宣布莫拉塔加盟
http://sports.qq.com/a/20170720/001226.htm
京东与唯品会否认合并传闻 周三开盘股价双双上涨
http://tech.qq.com/a/20170719/061676.htm
农业部再发两个进口转基因生物安全证书：均为玉米
http://finance.qq.com/a/20170719/060784.htm
不延迟了！iPhone 8会在9月底推出
http://tech.qq.com/a/20170720/003257.htm
世锦赛-女子10米台中国双保险丢冠 马来西亚夺历史首金
http://sports.qq.com/a/20170720/001150.htm
亚马逊推出自己的社交网络 不过目前只针对iOS用户
http://tech.qq.com/a/20170719/065360.htm
美国宣布对涉伊核中国民企和个人单边制裁 中方回应
http://news.qq.com/a/20170719/052073.htm
IBM连续21季度营收下滑为何仍能实现盈利？
http://stock.qq.com/a/20170719/066938.htm
港媒：菲律宾捣破一以中国人为首绑架匪帮 拘捕45人
http://news.qq.com/a/20170719/061172.htm
环法第17赛段 荷兰乐透车队罗格利奇夺冠
http://sports.qq.com/a/20170719/066844.htm
寒门出贵子！双胞胎兄弟全都考进名校
http://news.qq.com/a/20170719/045395.htm
深圳积分入户放开学历限制 港媒：中小城市或效仿
http://news.qq.com/a/20170720/001173.htm
白银案被告人高承勇庭审鞠躬道歉现场
http://news.qq.com/a/20170719/065456.htm
朴槿惠以健康不佳为理由 再次拒绝为李在
http://news.qq.com/a/20170719/053842.htm

czl389

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
数据采集（三）：用XPath爬取腾讯新闻

用XPath 爬取腾讯新闻import requestsfrom lxml import etree先用requests.get()方法请求页面result=requests.get("http://news.qq.com/")encode=result.encodingcontent=result.contentencode'GB2312'注意指定解析器的编码格式selector=et
复制链接

扫一扫