环境:python3.6
1:抓取百度贴吧—linux吧内容 基础版 抓取一页指定内容并写入文件
萌新刚学习Python爬虫,做个练习
贴吧链接: http://tieba.baidu.com/f?kw=linux&ie=utf-8&pn=0
解析源码使用的是BeautifulSoup
关于BeautifulSoup: 可以直接查看官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
文件存储使用json的方式
当然你可以保存成txt文件
废话不多说 直接上代码
'''
抓取百度贴吧---linux吧内容
基础版 抓取一页指定内容并写入文件
爬虫线路: requests - pyquery
Python版本: 3.6
'''
import requests
import json
from bs4 import BeautifulSoup
# 用于发送请求,获得网页源代码以供解析
def start_requests(url):
r = requests.get(url)
return r.content
# 解析内容
def parse(text):
soup = BeautifulSoup(text, 'lxml')
infos = soup.find_all('li