【爬虫专栏8】pandas直接提取表格数据

最新推荐文章于 2024-04-28 10:33:09 发布

夏友

最新推荐文章于 2024-04-28 10:33:09 发布

阅读量643

点赞数

分类专栏：爬虫和数据分析文章标签： python csv 数据分析 url

本文链接：https://blog.csdn.net/summer_bird/article/details/105948581

版权

爬虫和数据分析专栏收录该内容

18 篇文章 0 订阅

订阅专栏

长江学者数据

import pandas as pd
import csv

def get_one_page(num):
    url = 'http://news.sciencenet.cn/htmlnews/2018/1/399176.shtm'
    tb = pd.read_html(url, skiprows=[0])[num]  # 跳过前两行
    return tb # 去掉最后一行


with open(r'E:\vscode_code\爬虫测试\pandas提取\changjiang.csv', 'w', encoding='utf-8-sig', newline='') as f:
    csv.writer(f).writerow(['推荐学校', '姓名', '岗位名称', '现任职单位'])

for i in range(3):  # 目前116页数据
    get_one_page(i).to_csv(r'E:\vscode_code\爬虫测试\pandas提取\changjiang.csv', mode='a', encoding='utf_8_sig', header=0, index=0)
    print('第'+str(i+1)+'张表格抓取完成')

双色球数据

import pandas as pd
import csv

def get_one_page(page):
    url = 'http://kaijiang.zhcw.com/zhcw/html/ssq/list_%s.html' % (str(page))
    tb = pd.read_html(url, skiprows=[0, 1])[0]  # 跳过前两行
    return tb.drop([len(tb)-1])  # 去掉最后一行


with open(r'E:\vscode_code\爬虫测试\pandas提取\qiu1.csv', 'w', encoding='utf-8-sig', newline='') as f:
    csv.writer(f).writerow(['开奖日期', '期号', '中奖号码', '销售额(元)', '中奖注数一等奖', '中奖注数二等奖', '详细'])

for i in range(1,21):  # 目前116页数据，取20页
    get_one_page(i).to_csv(r'E:\vscode_code\爬虫测试\pandas提取\qiu1.csv', mode='a', encoding='utf_8_sig', header=0, index=0)
    print('第'+str(i)+'页抓取完成')

夏友

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
【爬虫专栏8】pandas直接提取表格数据

长江学者数据import pandas as pdimport csvdef get_one_page(num): url = 'http://news.sciencenet.cn/htmlnews/2018/1/399176.shtm' tb = pd.read_html(url, skiprows=[0])[num] # 跳过前两行 return tb # 去...
复制链接

扫一扫

专栏目录