使用xpath来爬一点点小东西

使用的是xpath来爬的

1.先找一个很简单网站来练习的练习
Python代码:
运行的环境是windows下,用的是pycharm3.5
主要需要安装的是lxml和requests,Windows下直接
pip install requests
安装lxml,见链接:
http://blog.csdn.net/qq1815145797/article/details/78394363

import requests
from lxml import etree

headers_base={
'User-Agent': 'Fiddler/4.6.20171.26113 (.NET 4.5.2; WinNT 6.1.7601 SP1; zh-CN; 4xAMD64; Auto Update; Full Instance; Extensions: APITesting, AutoSaveExt, EventLog, Geoedge, HostsFile, RulesTab2, SAZClipboardFactory, SimpleFilter, Timeline)'
}

response=requests.get('https://www.zhihu.com/search?type=content&q=python',headers=headers_base)

html=etree.HTML(response.text)
spider_zhihu=html.xpath("//div/a[@target='_blank']/text() | //div/span/a[@class='author author-link']/text() | //div/span/a/span/text()")

for sp in spider_zhihu:
    print(sp)

运行的结果部分图:
运行的结果

总结

不足之处:

1.现在我只是将它打印pycharm的终端了,接下来看书的时候可以再将其抓取到文件中,
2.只是抓取了一页的内容
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值