使用的是xpath来爬的
1.先找一个很简单网站来练习的练习
Python代码:
运行的环境是windows下,用的是pycharm3.5
主要需要安装的是lxml和requests,Windows下直接
pip install requests
安装lxml,见链接:
http://blog.csdn.net/qq1815145797/article/details/78394363
import requests
from lxml import etree
headers_base={
'User-Agent': 'Fiddler/4.6.20171.26113 (.NET 4.5.2; WinNT 6.1.7601 SP1; zh-CN; 4xAMD64; Auto Update; Full Instance; Extensions: APITesting, AutoSaveExt, EventLog, Geoedge, HostsFile, RulesTab2, SAZClipboardFactory, SimpleFilter, Timeline)'
}
response=requests.get('https://www.zhihu.com/search?type=content&q=python',headers=headers_base)
html=etree.HTML(response.text)
spider_zhihu=html.xpath("//div/a[@target='_blank']/text() | //div/span/a[@class='author author-link']/text() | //div/span/a/span/text()")
for sp in spider_zhihu:
print(sp)
运行的结果部分图:
总结
不足之处:
1.现在我只是将它打印pycharm的终端了,接下来看书的时候可以再将其抓取到文件中,
2.只是抓取了一页的内容