Python爬虫的流程:
获取网页->解析网页(提取数据)->存储数据
获取网页:给网站发送请求,网站返回整个网页的数据。基础技术:request、urllib、selenium(模拟浏览器);进阶技术:多进程多线程抓取、登陆抓取、突破IP封禁和服务器抓取。
解析网页(提取数据):从整个网页的数据中提取想要的数据。基础技术:re正则表达式、BeautifulSoup、lxml;进阶技术:解决中文乱码。
存储数据:把数据存储下来。基础技术:txt文件存入、csv文件存入;进阶技术:MySQL数据库存入、MongoDB数据库存入。
cmd中:pip install bs4
#coding:UTF-8
import requests
from bs4 import BeautifulSoup
'''
获取博客首页的html代码,伪装成浏览器访问。
'''
link = "http://www.santostang.com"
headers = {'User-Agent':'Mozilla/5.0(Windows;U;Windows NT6.1;en-US;rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}
r = requests.get(link,headers = headers)
#print(r.text)
'''
提取需要的数据
'''
soup = BeautifulSoup(r.text,"lxml")
title = soup.find("h1",class_ = "post-title").a.text.strip()
print(title)
'''
存储数据
'''
with open('title.txt','a+') as f:
f.write(title)
f.close()