1、使用工具:
Python3.5
BeautifulSoup
2、抓取网站:
csdn首页文章列表 http://blog.csdn.net/
3、分析网站文章列表代码:
4、实现抓取代码:
__author__ = 'Administrator'
import urllib.request
import re
from bs4 import BeautifulSoup
########################################################
#
# 抓取csdn首页文章http://blog.csdn.net/?&page=1
#
# 参数baseUrl是要访问