爬虫小demo

2 篇文章 0 订阅
1 篇文章 0 订阅

为准备大数据课设学习爬虫小项目,现在网上学习爬虫中商情报局
代码罗列如下,以备回顾

from urllib.parse import urlencode
import requests
from bs4 import BeautifulSoup
import pandas as pd
data = []
#1.url
#https://s.askci.com/stock/a/0-0?reportTime=2017-12-31&pageNum=2#QueryCondition
for i in range(1,10):
  paras = {
    'reportTime=':'2017-12-31',
    'pageNum': i
  }
  695185429
  url = 'https://s.askci.com/stock/a/0-0?' + urlencode(paras)
  print(url)

  # 2.请求资源,获取响应
  # response = requests.get(url)#这个网站不需要请求头
  # #print(response.text)
  # html = response.text
  
 #3.解析网页 工具 正则 xpath bs4  # , html ,解析库
  #第一种
  # soup = BeautifulSoup(html,'lxml')#规范化
  # #print(soup)
  #
  # tr_list = soup.find_all('tbody')
  # for data in tr_list:
  #   print(data)
  #   print(data.text.split())#只获得文字信息

  #第二种
  tb = pd.read_html(url,header=0)[3]#表
  print(tb.head())



  #数据保存  数据库
  #tb.to_csv('1.csv')
  data.append(tb)

df =pd.concat(data)
df.to_csv('2.csv')

原网站
在这里插入图片描述
运行结果:

在这里插入图片描述
在这里插入图片描述

注:因此网站没有反爬机制,所以网上很多关于中商的例子,很不错

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值