python数据整理+突发断网解决方法(学习笔记(1)

import pandas as pd

import urllib

import requests

from lxml import etree

import urllib.request as req

import re

import requests

from lxml import etree

from bs4 import BeautifulSoup

import urllib.request as req

import requests

import time

import numpy as np

import urllib

import urllib2

import os

headers={‘User-Agent’:‘…’}

skdfs=pd.DataFrame()

for ski in range(0,30):

skdf=pd.DataFrame()

url=‘http://…com.cn/skygb/sk/index.php/index/seach/’+str(ski)

reuqest=urllib.request.Request(url,headers=headers)

content=urllib.request.urlopen(reuqest).read()

soup=BeautifulSoup(content,‘lxml’)

tables=soup.findAll(‘table’)

tab=tables[2] # 查找发现tables[2]是我们要的数据

skdata=pd.read_html(tab.prettify())

skdf=pd.DataFrame(skdata[0])

skdfs=skdfs.append(skdf)

print(‘已经完成第’+str(ski)+‘页’)

skdf.to_excel(“skfiles/”+str(ski)+“.xlsx”,encoding=‘utf-8-sig’) # 在skfiles文件夹下面

time.sleep(np.random.randint(5))

skdfs.to_excel(“skfiles.xlsx”,encoding=‘utf-8-sig’)

如图即为爬取的数据,会放到skfiles文件夹下的Excel当中:

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

一个Excel当中有20条记录,那么如果是要让100条记录在一个Excel当中呢?

for ski in range(0,30): # 0-30页,我要每5页创建一个Excel文件

skdf=pd.DataFrame()

url=‘http://fz.people.com.cn/skygb/sk/index.php/index/seach/’+str(ski)

reuqest=urllib.request.Request(url,headers=headers)

content=urllib.request.urlopen(reuqest).read()

soup=BeautifulSoup(content,‘lxml’)

tables=soup.findAll(‘table’)

tab=tables[2] # 查找发现tables[2]是我们要的数据

skdata=pd.read_html(tab.prettify())

skdf=pd.DataFrame(skdata[0])

skdfs=skdfs.append(skdf)

print(‘已经完成第’+str(ski)+‘页’)

if((ski%10)==0):

skdf.to_excel(“skfiles/”+str(ski)+“.xlsx”,encoding=‘utf-8-sig’) # 在skfiles文件夹下面

time.sleep(np.random.randint(5))

skdfs.to_excel(“skfiles.xlsx”,encoding=‘utf-8-sig’)

在这里插入图片描述

每隔5页创建一个Excel文件:

在这里插入图片描述

数据合并(追加)

======================================================================

比如我们要把上面的5.xlsx到25.xlsx合并起来,应该如果做呢

方法一:Excel


在这里插入图片描述

调用查询编辑器power quer:

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

导入数据源:将10.xlsx与25.xlsx进行连接:

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

此时即追加成功

方法二:Python


自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数Python工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年Python开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
img
img



既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Python开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加V获取:vip1024c (备注Python)
img

一个人可以走的很快,但一群人才能走的更远。如果你从事以下工作或对以下感兴趣,欢迎戳这里加入程序员的圈子,让我们一起学习成长!

AI人工智能、Android移动开发、AIGC大模型、C C#、Go语言、Java、Linux运维、云计算、MySQL、PMP、网络安全、Python爬虫、UE5、UI设计、Unity3D、Web前端开发、产品经理、车载开发、大数据、鸿蒙、计算机网络、嵌入式物联网、软件测试、数据结构与算法、音视频开发、Flutter、IOS开发、PHP开发、.NET、安卓逆向、云计算

89e65ecb71ac0)

AI人工智能、Android移动开发、AIGC大模型、C C#、Go语言、Java、Linux运维、云计算、MySQL、PMP、网络安全、Python爬虫、UE5、UI设计、Unity3D、Web前端开发、产品经理、车载开发、大数据、鸿蒙、计算机网络、嵌入式物联网、软件测试、数据结构与算法、音视频开发、Flutter、IOS开发、PHP开发、.NET、安卓逆向、云计算

  • 15
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值