由于需要每天从指定网站上获取数据,于是决定学习下pyhon爬虫,并使用脚本来自动获取数据并保存到本地。网址如下:
http://58.51.240.121:8503/Analysis_GuideRank.aspx。
由于该站点首页布局较为简单,通过查看页面源码发现所有数据均位于表格中,因此主要思路为:
1、通过beautifulSoup来解析网页数据,并获取所有table中的值;
#coding=utf-8
from urllib import request #python3使用urllib,python2可以使用urllib2
from bs4 import BeautifulSoup
from lxml import etree
import csv
import pandas as pd
import re
#打开url,获取所有table的内容
URL = "http://58.51.240.121:8503/Analysis_GuideRank.aspx"
page = request.urlopen(URL)
soup = BeautifulSoup(page,'lxml')
table_node = soup.find_all('table')
2、利用正则表达式