Python 是比较美的语言,相见恨晚
抓数据的一般步骤
首先,锁定目标,也就是确定网站链接的格式。
其次,在浏览器中或者在wireshark中尝试抓包,分析数据,主要是利用浏览器的查看源码功能,分析需要抓包的数据的结构特点,确定规律。
编写python代码,分析数据,反反复复,得到脚本。
我的例子
#encoding:utf-8
import requests
import re
class Spider:
#构造函数
def __init__(self):
print u('开始执行爬虫')
#用来获取页面源码
def getSource(self,url):
html=requests.get(url)
return html
#产生不同页数
def changePage(self,url,total_page):
now_page=int(re.search('pageNum=(\d+)',url,re.S).group(1))
page_group=[]
for i in range(now_page,total_page+1):
link=re.sub('