昨天看了一下“易数云”的微信公众号的文章,觉得对于我这种小白来说,还蛮有用的。
转发一下,技术贴来的。
https://mp.weixin.qq.com/s/8ZO6UtZpTNOgg53sd52dOw
出来的结果可以去文章上看效果。扫一扫上边就搞定了~~~~
import requests # 导入requests模块
from lxml import etree # 导入lxml模块,可能需要安装
url = 'http://www.jianshu.com' # 请求的url
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'} # 设置请求头
page = requests.get(url, headers=headers) # 开始请求url
page_info = page.text # 打开Url,获取网页的html
sel = etree.HTML(page_info) # 讲html包装成xpath
title_list = sel.xpath('//ul[@class="note-list"]/li/div/a[@class="title"]/text()') # 获取所有标题
url_list = sel.xpath('//ul[@class="note-list"]/li/div/a[@class="title"]/@href') # 获取所有标题链接
num_title = len(title_list) # 统计标题个数
with open('./test.txt', 'a', encoding='utf-8')as f: # 将数据写入文本
for i in range(num_title):
f.write(title_list[i])
f.write('\n')
f.write('http://www.jianshu.com/' + url_list[i])
f.write('\n')
f.write('\n')