前言
在很多网站上,都会以表格的形式展示数据,而我们获取这种数据只需通过十几行爬虫代码就可以搞定,轻松搞定网页爬虫,实现高效办公
知识点:
爬虫基本原理
requests的简单使用
pandas库
pyecharts可视化工具
第三方库:
requests
pandas
开发环境:
Python 3.6
Pycharm
爬虫代码
1.导入工具
from urllib.parse import urlencode
import requests
import csv
from bs4 import BeautifulSoup
import pandas as pd
2.网页提取函数
def get_one_page(i):
paras = {
'reportTime': '2019-12-31',
# 可以改报告日期,比如2018-6-30获得的就是该季度的信息
'pageNum': i # 页码
}
url = 'http://s.askci.com/stock/a/?' + urlencode(paras)
response = requests.get(url, headers=headers)
if response.status_code == 200:
return response.text
3.提取表格数据
def parse_one_page