学习python的第十一、十二天 爬《十万个为什么》,搜集不同标签的问题,例如交通、植物等等。

爬《十万个为什么》

学习python的第十二、十三天 (2020.04.17-04.18)

需求分析
目标网站(https://10why.net/
				内容:爬网页十万个为什么,爬不同分类下的问题及答案,将得到的结果保存到本地文本文件中。
		>任务要求:
				1.使用requests获取网页源代码
				2.使用XPath
				3.使用python读/写CSV文件
网站首页

在这里插入图片描述

网站目录页(交通)

在这里插入图片描述

问题解释页

在这里插入图片描述

爬取流程图

爬取首页(得到目录的url,并保存目录名称,为保存到本地文本文件命名做铺垫)》》》》爬取分类的目录页(得到为什么问题,并用列表保存每个问题的标题,及问题答案的地址)》》》》问题解释页(爬取答案,保存到列表当中)》》》》创建文件夹(新建文件夹《十万个为什么》,在文件夹里新建目录标题文本文件,最后将属于其目录下的问题及解释写入该文件中)

核心代码
#coding:utf-8
#coding: GBK
import re
import requests
import lxml.html
from multiprocessing.dummy import Pool
import os  #创建文件夹需要引用os库

why10 =requests.get('https://10why.net/').content.decode()
# print(why10)
why_menu=lxml.html.fromstring(why10)
menu =why_menu.xpath('//div[@class="box-inner-p"]/h2[@class="entry-title h3"]/a/text()')# 获取十万个为什么目录名称
menu_url=re.findall(
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值