使用xpath来爬一点点小东西

最新推荐文章于 2024-07-30 10:53:26 发布

小阔爱_data

最新推荐文章于 2024-07-30 10:53:26 发布

阅读量471

点赞数

分类专栏：爬虫-python 文章标签：爬虫 xpath

本文链接：https://blog.csdn.net/qq1815145797/article/details/78407512

版权

爬虫-python 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

使用的是xpath来爬的

1.先找一个很简单网站来练习的练习
Python代码：
运行的环境是windows下，用的是pycharm3.5
主要需要安装的是lxml和requests,Windows下直接
pip install requests
安装lxml，见链接：
http://blog.csdn.net/qq1815145797/article/details/78394363

import requests
from lxml import etree

headers_base={
'User-Agent': 'Fiddler/4.6.20171.26113 (.NET 4.5.2; WinNT 6.1.7601 SP1; zh-CN; 4xAMD64; Auto Update; Full Instance; Extensions: APITesting, AutoSaveExt, EventLog, Geoedge, HostsFile, RulesTab2, SAZClipboardFactory, SimpleFilter, Timeline)'
}

response=requests.get('https://www.zhihu.com/search?type=content&q=python',headers=headers_base)

html=etree.HTML(response.text)
spider_zhihu=html.xpath("//div/a[@target='_blank']/text() | //div/span/a[@class='author author-link']/text() | //div/span/a/span/text()")

for sp in spider_zhihu:
    print(sp)

运行的结果部分图：

总结

不足之处：

1.现在我只是将它打印pycharm的终端了，接下来看书的时候可以再将其抓取到文件中，
2.只是抓取了一页的内容

小阔爱_data

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
使用xpath来爬一点点小东西

使用的是xpath来爬的1.先找一个很简单网站来练习的练习 Python代码：运行的环境是windows下，用的是pycharm3.5 主要需要安装的是lxml和requests,Windows下直接 pip install requests 安装lxml，见链接： http://blog.csdn.net/qq1815145797/article/details/78394363i
复制链接

扫一扫

专栏目录