python
python的学习记录
weixin_41098099
这个作者很懒,什么都没留下…
展开
-
用python将数据文件按某个字段拆分
将数据文件按照某个字段将数据,进行拆分汇总。例:将下面的表,按照科目进行拆分汇总。1.获取文件数据import osimport pandas as pdfile_path = 'D:\data\数据处理\字段拆分\总表.xlsx'data = pd.read_excel(file_path)2.获取科目的种类# 按科目进行拆分,将所有科目都取出来,然后通过drop_duplicates()去重subjects = data['科目'].drop_duplicates()3.按原创 2022-03-19 23:51:12 · 2343 阅读 · 0 评论 -
用python将一份数据文件均等分拆
将一份数据文件,指定数据文件量来进行分拆,又或者指定分成指定的份数。例:将这份数据分别按指定文件数据量和指定拆分的份数来进行拆分。1.获取数据file_path = 'D:\data\数据处理\拆分\汇总.xlsx'data = pd.read_excel(file_path)2.指定数据量进行拆分# 按照每份数量进行拆分,例如指定每份为10条数据def quantity_split(source_data, num): # 获取总共多少条数据 count = len(原创 2022-03-19 20:34:38 · 2979 阅读 · 0 评论 -
利用python将多个格式相同的数据文件合成一个
工作中,我们时常遇到多个数据格式相同的文件,想把它们汇总到一个表中。例:在’D:\data\数据处理\合并文件‘目录下,有3个数据文件分别为’1.xlsx’, ‘2.xlsx’, ‘3.xlsx’,其里面的表头一样,这时候我们想把他汇总到一个表中。1.获取文件名首先,输入数据存在的路径用以获取该路径下的全部文件。path = 'D:\data\数据处理\合并文件'files = os.listdir(path)输出files,可以见到在此路径下的所有文件。2.读取第一个数据文件之原创 2022-03-19 17:45:55 · 1723 阅读 · 0 评论 -
python使用numpy清洗爬取后的数据
对于刚爬取的数据,数据一般不会全部按照你的格式,整整齐齐的排列,比如:这时候,需要我们对数据进行清洗。1.读取数据出来data = []with open("51job.csv",encoding='gbk') as csvfile: csv_reader = csv.reader(csvfile) # 使用csv.reader读取csvfile中的文件 data_header = next(csv_reader) # 读取第一行每一列的标题 ['职位', '薪资', '公司'原创 2020-09-12 03:06:18 · 861 阅读 · 0 评论 -
Python爬取招聘网岗位动态信息
1.熟悉chromedriverhttps://blog.csdn.net/weixin_41098099/article/details/1071285662.查看网页的页数、分析进入https://www.51job.com/,搜索随意个岗位,例如这里是‘大数据’,如图:分析网页地址:第一页:https://search.51job.com/list/000000,000000,0000,00,9,99,大数据,2,1.html?lang=c&stype=1&postcha原创 2020-09-11 17:50:08 · 552 阅读 · 0 评论 -
使用selenium爬取动态页面
在爬取某些页面时,由于其一些内容是使用js动态加载,导致只能爬取到部分的内容(静态内容)。此时,可以使用selenium库来解决。# coding=utf-8from selenium import webdriverfrom selenium.webdriver.chrome.options import Options# 为了将Chrome不弹出界面,实现无界面爬取chrome_options = Options()chrome_options.add_argument('--headle原创 2020-07-04 18:44:34 · 662 阅读 · 0 评论 -
关于“FileNotFoundError: [Errno 2] No such file or directory“的错误
昨天学习爬虫,保存文件时,突然发现文件找不到的错误:但是我用的是with open() as f:的语句,找不到的话,会帮我创建的啊。后面晚上睡觉回想下是因为还有"/"的符合,这里已经包含路径的分割了,我们需要讲它删除或者替换等方法。这里我选择删除的方法:果然运行成功了。总结:在创建文件时,需要注意其文件名是否含有一些特殊的符号,例如/、转义符之类的。...原创 2020-04-11 13:36:27 · 2110 阅读 · 0 评论 -
Python实现输入某日期得到其后两天日期
在某些编程习题中,经常我们会遇到输入某个日期从而来输出后面的日期。因为每个月的天数规律不同,有时输入比较多的代码来完成,在这里,使用了Python里面的字典,可以方便些。代码如下:# 判断是否为闰年def isLeapYear(year): if year%400==0 : return 1; else: if year%4==0 and year%100!=0: return 1; else:原创 2020-05-11 15:52:04 · 1389 阅读 · 0 评论 -
python运行时出现AttributeError:’NoneType‘ object has no attribute ’find_all‘的错误
今天,在用python练习爬虫时,突然出现了出现‘AttributeError: ‘NoneType’ object has no attribute ‘find_all’’的错误。分析:article的类型是为‘NoneType’,而一般只有‘bs4.BeautifulSoup’有‘find_all’这个方法,此时在想能否直接将‘NoneType’转为‘bs4.BeautifulSoup’,但发现这样会报错。再分析前面成功转换的代码,其转换前的状态是’str’类型,尝试着先把它转换为’st原创 2020-05-14 23:56:03 · 17463 阅读 · 0 评论