为准备大数据课设学习爬虫小项目,现在网上学习爬虫中商情报局
代码罗列如下,以备回顾
from urllib.parse import urlencode
import requests
from bs4 import BeautifulSoup
import pandas as pd
data = []
#1.url
#https://s.askci.com/stock/a/0-0?reportTime=2017-12-31&pageNum=2#QueryCondition
for i in range(1,10):
paras = {
'reportTime=':'2017-12-31',
'pageNum': i
}
695185429
url = 'https://s.askci.com/stock/a/0-0?' + urlencode(paras)
print(url)
# 2.请求资源,获取响应
# response = requests.get(url)#这个网站不需要请求头
# #print(response.text)
# html = response.text
#3.解析网页 工具 正则 xpath bs4 # , html ,解析库
#第一种
# soup = BeautifulSoup(html,'lxml')#规范化
# #print(soup)
#
# tr_list = soup.find_all('tbody')
# for data in tr_list:
# print(data)
# print(data.text.split())#只获得文字信息
#第二种
tb = pd.read_html(url,header=0)[3]#表
print(tb.head())
#数据保存 数据库
#tb.to_csv('1.csv')
data.append(tb)
df =pd.concat(data)
df.to_csv('2.csv')
原网站
运行结果:
注:因此网站没有反爬机制,所以网上很多关于中商的例子,很不错