爬虫小demo

最新推荐文章于 2022-02-18 14:42:35 发布

泡泡里的月亮

最新推荐文章于 2022-02-18 14:42:35 发布

阅读量142

点赞数

分类专栏： python 爬虫大数据

本文链接：https://blog.csdn.net/qq_30336973/article/details/116674419

版权

python 同时被 3 个专栏收录

17 篇文章 1 订阅

订阅专栏

爬虫

2 篇文章 0 订阅

订阅专栏

大数据

1 篇文章 0 订阅

订阅专栏

为准备大数据课设学习爬虫小项目,现在网上学习爬虫中商情报局
代码罗列如下，以备回顾

from urllib.parse import urlencode
import requests
from bs4 import BeautifulSoup
import pandas as pd
data = []
#1.url
#https://s.askci.com/stock/a/0-0?reportTime=2017-12-31&pageNum=2#QueryCondition
for i in range(1,10):
  paras = {
    'reportTime=':'2017-12-31',
    'pageNum': i
  }
  695185429
  url = 'https://s.askci.com/stock/a/0-0?' + urlencode(paras)
  print(url)

  # 2.请求资源,获取响应
  # response = requests.get(url)#这个网站不需要请求头
  # #print(response.text)
  # html = response.text
  
 #3.解析网页 工具 正则 xpath bs4  # , html ,解析库
  #第一种
  # soup = BeautifulSoup(html,'lxml')#规范化
  # #print(soup)
  #
  # tr_list = soup.find_all('tbody')
  # for data in tr_list:
  #   print(data)
  #   print(data.text.split())#只获得文字信息

  #第二种
  tb = pd.read_html(url,header=0)[3]#表
  print(tb.head())



  #数据保存  数据库
  #tb.to_csv('1.csv')
  data.append(tb)

df =pd.concat(data)
df.to_csv('2.csv')